Итнернет в бизнесе. Лекция 9 © КНТЭУ, каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 1. Поисковые сервисы Интернет, основные определения. 2. Классификация.

Презентация:



Advertisements
Похожие презентации
Информационно- поисковые машины и системы.. Поисковая машина комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой.
Advertisements

Электронная почта Определение Электронная почта ( - electronic mail) - средство обмена информацией, подготовленной в электронном виде, между людьми,
Учитель математики, информатики и ВТ Земскова В.Х п. Кушокы.
Электронная почта Форумы прямого общения (chat-конференции) Интернет-телефония Файловые архивы (FTP) WWW – World Wide Web.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
© КНЭТУ, каф. ЭКИС, доц. Шклярский С.М. Web-программирование Фундаментальные основы Интернет 1.Протоколы межсетевого обмена 2.Принципы адресации в Интернет.
Общие вопросы поиска информации в Интернет. Поиск информации в книге: 1. По оглавлению 2. По тематическим указателям. Интернет: Оглавление – специальная.
П О И С К О В Ы Е П О И С К О В Ы Е СИСТЕМЫ СИСТЕМЫ.
«ТЕЛЕ» - удаленный «КОММУНИКАЦИЯ» -связь,сообщение Телекоммуникация - связь между объектами (людьми, компьютерами, приборами), находящимися на удалении,
©Академия последипломного образования, 2012 Поиск информации в Internet.
Всеми́рная паути́на (англ. World Wide Web) это система (сеть), обеспечивающая доступ к информационным объектам, связанным между собой гиперссылками и.
ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ. ИНТЕРНЕТ – МЕЖДУНАРОДНАЯ ГЛОБАЛЬНАЯ КОМПЬЮТЕРНАЯ СЕТЬ. FTP – протокол передачи файлов – средства доступа к удаленному компьютеру,
П ОИСК ИНФОРМАЦИИ В И НТЕРНЕТЕ Работу выполнила: Забавина Татьяна.
:15 Возможности Интернета 1. Безграничные возможности Интернета Internet - всемирная система объединённых компьютерных сетей, которая образует.
Учитель информатики Артеменко Т.В. Поиск информации в Интернет.
Каждая наука лишь тогда достигает своего совершенства, когда породнится с математикой. Кант СИСТЕМНОЕ И ПРИКЛАДНОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ Тема лекции:
Поиск информации в Интернет (web). Способы поиска информации в web Поиск информации – одна из самых востребованных на практике задач, которую приходится.
ИНТЕРНЕТ как ресурс образовательной деятельности.
Поиск информации в Интернет. поисковые каталоги; поисковые каталоги; поисковые указатели. поисковые указатели. Две разновидности поисковых серверов:
Интернет Выполнил: Искалиев.Д Проверил: Андреянов К.А.
Транксрипт:

Итнернет в бизнесе. Лекция 9 © КНТЭУ, каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 1. Поисковые сервисы Интернет, основные определения. 2. Классификация поисковых сервисов WWW. 3. Структура поисковой системы и каталога. 4. Краткий обзор поисковых систем. 5. Феномен поисковой системы Google.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 1. Поисковые сервисы Интернет, основные определения. Модели структурирования информации в Internet Иерархическая (древовидная). Заключается в организации информационных связей в виде упорядоченного дерева. … ……… Ресурсы 1-го уровня Ресурсы 2-го уровня Ресурсы 3-го уровня

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Древовидная организация информации получила свою практическую реализацию в системе Gopher (1989 г.), которая до 1995 г. являлась наиболее распространенной информационной технологией в Сети. Объединение Gopher-серверов называется gopher- пространством. В 1994 г. была создана универсальная поисковая машина Veronica, которая могла осуществлять поиск информации по всем серверам gopher-пространства. Достоинство: простота организации поисковых алгоритмов. Недостаток: ограниченная область применения (библиотечные ресурсы, базы данных издательских систем).

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Гипертекстовая модель описывает взаимосвязи информационных ресурсов Сети в виде направленного графа произвольной структуры. Данная модель реализована в пространстве информационных ресурсов World Wide Web (WWW) и является на сегодняшний день преобладающей, т.к. позволяет структурировать практически любую информацию Internet. Недостаток – сложность управления такой структурой. р1р1 р2р2 p n-1 pnpn

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поиском в WWW-пространстве называется процедура получения URL-адресов web-документов (страниц), содержимое которых удовлетворяет заданному критерию поиска, сформулированному в виде некоторого поискового запроса. Поиском в Internet занимаются специальные службы, которые называются поисковыми сервисами (серверами). Поисковые сервисы могут быть платными и бесплатными. К бесплатным сервисам относятся поиск информации на WWW-серверах, в FTP-архивах, USENET-конференциях и общих адресных книгах . Услуги поиска в специализированных (коммерческих) базах данных, адресных серверах и справочных службах, как правило – платные.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поиск объектов: White- и yellow- поиск Под White(белым)-поиском понимается поиск адреса одного конкретного объекта по его достаточно определенному имени (человека - по фамилии, организации - по названию, файла – по имени и т.д.). Достаточно определенное имя означает, что объект поиска заранее известен: есть уверенность в его существовании и предлагаемое для поиска имя вполне уникально.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Yellow(желтый)-поиск - это поиск одного или нескольких объектов по недостаточно определенному или вообще неопределенному имени. Недостаточно определенное имя означает неполное, неоднозначное или в чем-то неверное имя, не позволяющее найти объект средствами White-поиска. Неопределенное имя означает либо просто отсутствие какого-либо конкретного имени, либо такое его значение,которое позволяет лишь отнести обозначаемый им объект ккакому-то классу (например: найти какой-нибудь банк в Киеве).

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Функции поискового сервиса: Сбор, накопление и поддержка в актуальном состоянии информации о Сетевых ресурсах. Прием, обработка запросов пользователей и выдача результатов. Функции поисковых сервисов в Internet выполняют поисковые системы и поисковые каталоги. Поисковая система – это сервер или группа серверов, на которых функционирует поисковая машина и средства актуализации информации о Сетевых ресурсах. Поисковый каталог – это, организованый в виде иерархической структуры, список ссылок на Сетевые ресурсы. 2. Классификация поисковых сервисов

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Поисковые системы Каталоги Глобальные Локальные Региональные Специализированные Сетевого базирования Локального базирования Метапоисковые системы Классификация поисковых сервисов в WWW

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Глобальные поисковые системы и каталоги содержат ссылки на информационные ресурсы по всему адресному пространству Internet. Google.com- поисковая система List.ru- поисковый каталог Yahoo.com- поисковый портал Региональные поисковые системы и каталоги содержат ссылки на информационные ресурсы по адресному пространству Internet, ограниченому некоторым регионом (Россия, Украина). Search.aol.com - поисковая система компании AOL Yandex.ru- поисковая система Рунет - поисковая система Уанет

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Специализированные поисковые системы и каталоги содержат ссылки на информационные ресурсы из определенной предметной области (медицина, политика …) softseek.com – поиск программ ditto.com – поиск графических файлов cnn.com – политика, новости doctor.ru - медицина Локальные поисковые системы и каталоги содержат ссылки на информационные ресурсы внутри конкретной организации и ее локальной сети. rada.gov.ua – поиск законодательных актов на серверах ВР Украины /library – поиск книг в каталоге библиотеки КНТЭУ

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Метапоисковые системы – это службы, которые не имеют собственных поисковых средств, а для поиска информации прибегают к помощи одной или нескольких классических поисковых систем. Метапоисковые системы сетевого базирования – это сервера в Internet. (El.visti.net) Метапоисковые системы локального базирования – это специализированные программы, которые размещаются на компьютере пользователя и выполняют поиск в Сети, путем переадресации запроса на классические поисковые системы. (Copernic-2000)

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 3. Структура поисковой системы и каталога. клиент Поисковая машина Индекс базы данных web Web админ. Активная актуализация Активная актуализация Пассивная актуализация Пассивная актуализация Робот индексировщик Структура поисковой системы (ПС)

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Клиент - это хост, с которого поступил запрос на поиск конкретного информационного ресурса. Поисковая машина - служит для трансляции запроса клиента в формальный запрос системы, поиска ссылок и выдачи результатов этого поиска пользователю. Индекс базы данных - основной массив данных ПС, служит для поиска адреса информационного ресурса. Является системообразующей компонентой ПС Робот-индексировщик - специальная программа для сканирования Интернет и поддержания базы данных индекса в актуальном состоянии.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Упрощенная структура индекса базы данных ПС 10,345,800,… Кучма … 1,3,5,3000,… Бин Ладен 1,2,5,10,525… Буш СсылкиСлова … m 1 URLN Словари БД База URL 10,345,800,… Кучма … 1,3,5,3000,… Бин Ладен 1,2,5,10,525… Буш СсылкиСлова 10,345,800,…Янукович … 1,3,5,3000,…Тимошенко 1,2,5,10,525…Буш СсылкиСлова Емкость словаря Емкость индекса БД

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Размер индекса базы данных ПС – это количество адресов ресурсов сети, ссылки на которые содержатся в базе данных ПС. Размер словаря ПС – это количество слов, словосочетаний и фраз, которым поcтавлен в соответствие хотя-бы один адрес из индекса базы данных ПС. Период обновления индекса БД – это среднее время между двумя посещениями роботом индексировщиком одного и того же ресурса в Сети. или – это время, через которое роботы-индексировщики обнаружат и запишут в БД новый ресурс в Сети. Обучаемость – это свойство роботов-индексировшиков проводить селективный отбор информационных ресурсов (устранение повторов, игнорирование грязных ресурсов и т.д)

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет клиент Дерево ссылок Робот индексировщик web Web админ. Активная актуализация Активная актуализация Пассивная актуализация Пассивная актуализация Структура поискового каталога

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Сервер Компания () Компания (владелец) Web-адрес Web-адрес Язык Язык Размер Размер Период обновления Период обновления Обучаемость Обучаемость Ответ на запрос Ответ на запрос DEC любой 30 млн. 1-3 месяца Да Первые несколько строк из документа Altavista Magellan англ. 55 млн. 1-3 недели Нет Наиболее релевантные запросу фразы документа Excite Lycos англ. 25 млн. 1 месяц Нет Экстракт из содержимого страницы Lycos Stack Ltd. русск. 2,5 млн. 1 неделя Нет первые 512 байт документа Rambler Comtek русск., англ. 2 млн. постоянно Да первые 1024 байт документа, мера релевантности, дата создания и объем документа. Яndex АГАМА русск. 2,6 млн. сутки пока нет предложения, содержащие слова запроса Апорт ООО Харьков-Онлайн, ХГПУ русск, украинский - + 2,6 (от Апорт) - нет предложения, содержащие слова запроса Мета 4. Краткий обзор поисковых систем

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет 5. Феномен ПС Google. Google искаженное написание английского слова "googol", для обозначения числа, состоящего из единицы и ста нулей ( ). Создатели Google: Лоуренс Пейдж Сергей Брин Начали работу над системой в Стенфордском университете в 1995 г и в 1996 г. Запустили прототип Back Rub.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Основные параметры ПС Google ( Размер индекса – более 3 млрд. адресов; Размер базы – около 6 Терабайт; Поисковая машина состоит из 6000 серверов, занимающих три вычислительных центра; Обрабатывает в день около 110 млн. запросов Коммерческая версия Google была запущена в эксплуатацию в 2000г.

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет Концепция Google Для сортировки документов Google использует так называемый индекс PageRank - ссылка на документ. Вычисление PageRank Рассмотрим некую страницу А. Имеется n страниц (T1, Т2, …, Tn), цитирующих данный документ. Фактор затухания d (damping factor) это вероятность того, что пользователь, просматривая страницу, перейдет на следующую страницу не по ссылке, а набрав случайный URL. d может колебаться в пределах от 0 до 1, но обычно устанавливается в значение 0,85. Тогда вероятность перехода по ссылке будет равна 1-d. C(A) общее число ссылок со страницы А на другие документы. Тогда индекс PageRank PR(A) для страницы А равен: PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

© КНТЭУ , каф. ИТС, доц. Шклярский С.М. Поиск в Интернет PageRank страницы тем выше, чем больше других страниц ссылается на нее и чем эти страницы популярнее. Проект Google получает доходы из двух источников: Реклама. Доходы от лицензирования технологии Google. – главный URL – локализация