Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемГаля Яткина
1 Итнернет в бизнесе. Лекция 9 © КНТЭУ, каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 1. Поисковые сервисы Интернет, основные определения. 2. Классификация поисковых сервисов WWW. 3. Структура поисковой системы и каталога. 4. Краткий обзор поисковых систем. 5. Феномен поисковой системы Google.
2 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 1. Поисковые сервисы Интернет, основные определения. Модели структурирования информации в Internet Иерархическая (древовидная). Заключается в организации информационных связей в виде упорядоченного дерева. … ……… Ресурсы 1-го уровня Ресурсы 2-го уровня Ресурсы 3-го уровня
3 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Древовидная организация информации получила свою практическую реализацию в системе Gopher (1989 г.), которая до 1995 г. являлась наиболее распространенной информационной технологией в Сети. Объединение Gopher-серверов называется gopher- пространством. В 1994 г. была создана универсальная поисковая машина Veronica, которая могла осуществлять поиск информации по всем серверам gopher-пространства. Достоинство: простота организации поисковых алгоритмов. Недостаток: ограниченная область применения (библиотечные ресурсы, базы данных издательских систем).
4 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Гипертекстовая модель описывает взаимосвязи информационных ресурсов Сети в виде направленного графа произвольной структуры. Данная модель реализована в пространстве информационных ресурсов World Wide Web (WWW) и является на сегодняшний день преобладающей, т.к. позволяет структурировать практически любую информацию Internet. Недостаток – сложность управления такой структурой. р1р1 р2р2 p n-1 pnpn
5 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поиском в WWW-пространстве называется процедура получения URL-адресов web-документов (страниц), содержимое которых удовлетворяет заданному критерию поиска, сформулированному в виде некоторого поискового запроса. Поиском в Internet занимаются специальные службы, которые называются поисковыми сервисами (серверами). Поисковые сервисы могут быть платными и бесплатными. К бесплатным сервисам относятся поиск информации на WWW-серверах, в FTP-архивах, USENET-конференциях и общих адресных книгах . Услуги поиска в специализированных (коммерческих) базах данных, адресных серверах и справочных службах, как правило – платные.
6 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поиск объектов: White- и yellow- поиск Под White(белым)-поиском понимается поиск адреса одного конкретного объекта по его достаточно определенному имени (человека - по фамилии, организации - по названию, файла – по имени и т.д.). Достаточно определенное имя означает, что объект поиска заранее известен: есть уверенность в его существовании и предлагаемое для поиска имя вполне уникально.
7 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Yellow(желтый)-поиск - это поиск одного или нескольких объектов по недостаточно определенному или вообще неопределенному имени. Недостаточно определенное имя означает неполное, неоднозначное или в чем-то неверное имя, не позволяющее найти объект средствами White-поиска. Неопределенное имя означает либо просто отсутствие какого-либо конкретного имени, либо такое его значение,которое позволяет лишь отнести обозначаемый им объект ккакому-то классу (например: найти какой-нибудь банк в Киеве).
8 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Функции поискового сервиса: Сбор, накопление и поддержка в актуальном состоянии информации о Сетевых ресурсах. Прием, обработка запросов пользователей и выдача результатов. Функции поисковых сервисов в Internet выполняют поисковые системы и поисковые каталоги. Поисковая система – это сервер или группа серверов, на которых функционирует поисковая машина и средства актуализации информации о Сетевых ресурсах. Поисковый каталог – это, организованый в виде иерархической структуры, список ссылок на Сетевые ресурсы. 2. Классификация поисковых сервисов
9 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поисковые системы Каталоги Глобальные Локальные Региональные Специализированные Сетевого базирования Локального базирования Метапоисковые системы Классификация поисковых сервисов в WWW
10 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Глобальные поисковые системы и каталоги содержат ссылки на информационные ресурсы по всему адресному пространству Internet. Google.com- поисковая система List.ru- поисковый каталог Yahoo.com- поисковый портал Региональные поисковые системы и каталоги содержат ссылки на информационные ресурсы по адресному пространству Internet, ограниченому некоторым регионом (Россия, Украина). Search.aol.com - поисковая система компании AOL Yandex.ru- поисковая система Рунет - поисковая система Уанет
11 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Специализированные поисковые системы и каталоги содержат ссылки на информационные ресурсы из определенной предметной области (медицина, политика …) softseek.com – поиск программ ditto.com – поиск графических файлов cnn.com – политика, новости doctor.ru - медицина Локальные поисковые системы и каталоги содержат ссылки на информационные ресурсы внутри конкретной организации и ее локальной сети. rada.gov.ua – поиск законодательных актов на серверах ВР Украины /library – поиск книг в каталоге библиотеки КНТЭУ
12 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Метапоисковые системы – это службы, которые не имеют собственных поисковых средств, а для поиска информации прибегают к помощи одной или нескольких классических поисковых систем. Метапоисковые системы сетевого базирования – это сервера в Internet. (El.visti.net) Метапоисковые системы локального базирования – это специализированные программы, которые размещаются на компьютере пользователя и выполняют поиск в Сети, путем переадресации запроса на классические поисковые системы. (Copernic-2000)
13 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 3. Структура поисковой системы и каталога. клиент Поисковая машина Индекс базы данных web Web админ. Активная актуализация Активная актуализация Пассивная актуализация Пассивная актуализация Робот индексировщик Структура поисковой системы (ПС)
14 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Клиент - это хост, с которого поступил запрос на поиск конкретного информационного ресурса. Поисковая машина - служит для трансляции запроса клиента в формальный запрос системы, поиска ссылок и выдачи результатов этого поиска пользователю. Индекс базы данных - основной массив данных ПС, служит для поиска адреса информационного ресурса. Является системообразующей компонентой ПС Робот-индексировщик - специальная программа для сканирования Интернет и поддержания базы данных индекса в актуальном состоянии.
15 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Упрощенная структура индекса базы данных ПС 10,345,800,… Кучма … 1,3,5,3000,… Бин Ладен 1,2,5,10,525… Буш СсылкиСлова … m 1 URLN Словари БД База URL 10,345,800,… Кучма … 1,3,5,3000,… Бин Ладен 1,2,5,10,525… Буш СсылкиСлова 10,345,800,…Янукович … 1,3,5,3000,…Тимошенко 1,2,5,10,525…Буш СсылкиСлова Емкость словаря Емкость индекса БД
16 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Размер индекса базы данных ПС – это количество адресов ресурсов сети, ссылки на которые содержатся в базе данных ПС. Размер словаря ПС – это количество слов, словосочетаний и фраз, которым поcтавлен в соответствие хотя-бы один адрес из индекса базы данных ПС. Период обновления индекса БД – это среднее время между двумя посещениями роботом индексировщиком одного и того же ресурса в Сети. или – это время, через которое роботы-индексировщики обнаружат и запишут в БД новый ресурс в Сети. Обучаемость – это свойство роботов-индексировшиков проводить селективный отбор информационных ресурсов (устранение повторов, игнорирование грязных ресурсов и т.д)
17 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет клиент Дерево ссылок Робот индексировщик web Web админ. Активная актуализация Активная актуализация Пассивная актуализация Пассивная актуализация Структура поискового каталога
18 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Сервер Компания () Компания (владелец) Web-адрес Web-адрес Язык Язык Размер Размер Период обновления Период обновления Обучаемость Обучаемость Ответ на запрос Ответ на запрос DEC любой 30 млн. 1-3 месяца Да Первые несколько строк из документа Altavista Magellan англ. 55 млн. 1-3 недели Нет Наиболее релевантные запросу фразы документа Excite Lycos англ. 25 млн. 1 месяц Нет Экстракт из содержимого страницы Lycos Stack Ltd. русск. 2,5 млн. 1 неделя Нет первые 512 байт документа Rambler Comtek русск., англ. 2 млн. постоянно Да первые 1024 байт документа, мера релевантности, дата создания и объем документа. Яndex АГАМА русск. 2,6 млн. сутки пока нет предложения, содержащие слова запроса Апорт ООО Харьков-Онлайн, ХГПУ русск, украинский - + 2,6 (от Апорт) - нет предложения, содержащие слова запроса Мета 4. Краткий обзор поисковых систем
19 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 5. Феномен ПС Google. Google искаженное написание английского слова "googol", для обозначения числа, состоящего из единицы и ста нулей ( ). Создатели Google: Лоуренс Пейдж Сергей Брин Начали работу над системой в Стенфордском университете в 1995 г и в 1996 г. Запустили прототип Back Rub.
20 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Основные параметры ПС Google ( Размер индекса – более 3 млрд. адресов; Размер базы – около 6 Терабайт; Поисковая машина состоит из 6000 серверов, занимающих три вычислительных центра; Обрабатывает в день около 110 млн. запросов Коммерческая версия Google была запущена в эксплуатацию в 2000г.
21 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет
22 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Концепция Google Для сортировки документов Google использует так называемый индекс PageRank - ссылка на документ. Вычисление PageRank Рассмотрим некую страницу А. Имеется n страниц (T1, Т2, …, Tn), цитирующих данный документ. Фактор затухания d (damping factor) это вероятность того, что пользователь, просматривая страницу, перейдет на следующую страницу не по ссылке, а набрав случайный URL. d может колебаться в пределах от 0 до 1, но обычно устанавливается в значение 0,85. Тогда вероятность перехода по ссылке будет равна 1-d. C(A) общее число ссылок со страницы А на другие документы. Тогда индекс PageRank PR(A) для страницы А равен: PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
23 © КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет PageRank страницы тем выше, чем больше других страниц ссылается на нее и чем эти страницы популярнее. Проект Google получает доходы из двух источников: Реклама. Доходы от лицензирования технологии Google. – главный URL – локализация
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.