Поиск информации в интернете Выполнила: Студентка 1 курса Отделения менеджмент Екимчик Анастасия.

Презентация:



Advertisements
Похожие презентации
Поиск информации в интернете Теория поиска информации.
Advertisements

Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
Тема Структура представления информации в мировых информационных сетях.
Поиск информации с использованием компьютера. Поиск папок и файлов на компьютере Если пользователь не помнит, в каком именно месте он сохранил папку или.
Технология поиска информации в Интернете. Поиск по адресам URL URL (Uniform Resource Locator) используется в World Wide Web для задания местоположения.
Поисковые системы Интернета Презентация подготовлена уч. 9а класса Веселовой Юноной.
Мировые информационные ресурсы Поисковые системы.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Учитель информатики Артеменко Т.В. Поиск информации в Интернет.
Чистопрудова Е.В.. Поиск информации Каждый пользователь Всемирной паутины сталкивается с проблемой поиска информации. Поиск может занять у вас от пяти.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
ПОИСКОВЫЕ СИСТЕМЫ ИНТЕРНЕТ ЗАМШИНА ВИКТОРИЯ НИКОЛАЕВНА.
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
Способы поиска информации в сети. Принципы работы поисковых систем.
БИЦ (библиотечно- информационный центр) МОУ гимназия 28 г. Костромы Поиск информации в Интернете. Поисковая система Яндекс.
Поиск и копирование мультимедийных ресурсов в сети Лапшева Елена Евгеньевна, руководитель центра непрерывной подготовки IT-специалистов факультета КНиИТ.
ПОИСКОВАЯ СИСТЕМА Поисковая система Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и.
Транксрипт:

Поиск информации в интернете Выполнила: Студентка 1 курса Отделения менеджмент Екимчик Анастасия

Задачи: Изучить теорию поиска информации в Интернет Сравнить основные поисковые системы в Интернет Описать основной язык запросов большинства поисковых систем Интернет Рассмотреть основные методики эффективного поиска в теории и на практике

Инструменты поиска directories – поисковые средства справочного типа search engines – поисковые системы

Так работает поисковая машина web-сайты Web-страница «Червяк» Индексатор Пользователь Система выдачи результатов поиска База данных «Паук»

«Паук» (spider) Программа, которая загружает в поисковую машину web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране. Передает в поисковую систему HTML- код документа.

«Червяк» (crawler) Программа, способная найти на web- странице все ссылки на другие страницы. Ее задача – определить, куда дальше должен «ползти» «паук», руководствуясь ссылками или заранее заданным списком адресов.

Индексатор (Indexer) Программа, которая «разбирает» web-страницу на составные части и анализирует их. Вычленяются и анализируются заголовки, ссылки, текст документов. Отдельно анализируется текст, набранный полужирным шрифтом, курсивом и т.п.

База данных (database) Хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

Система выдачи результатов поиска (Search Engine Results Engine) Программа, которая решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой машины «общается» пользователь.

«Паук» и «червяк» Первые две программы, работающие «в связке», часто называют поисковый робот или HTTP-робот.

Работа ПС Таким образом, после получения запроса ПС анализирует ту информацию, которую собрала ранее. Плюсы: многократно повышается скорость обработки запроса. Минусы: область поиска ограничена внутренними ресурсами ПС, информация в базе данных быстро устаревает.

Индексация и индекс Процесс загрузки информации из интернета и предварительного анализа ее поисковой машиной называют индексацией. Саму базу данных ПС, в которой храниться вся информация – индекс.

Индексация Глубина индексации может быть разной. Полные тексты документов, хранящихся на сайте, в базу данных копируются не всегда, иногда поисковые роботы ограничиваются урезанными версиями или вообще только заголовками.

Механизмы и алгоритмы поиска

Алгоритмы поиска Каждая ПС использует свой алгоритм поиска и его детали представляют собой ноу-хау разработчиков поисковика. Алгоритм поиска – метод, руководствуясь которым ПС принимает решение, включать или не включать ссылку на web-страницу в результаты поиска.

Закономерности поиска Некоторые из закономерностей поиска информации были описаны профессором филологии из Гарварда Джорджем Зипфом в 1949 году. Без учета собранных им закономерностей сегодня не способна работать ни одна система автоматического поиска информации.

Законы Зипфа Зипф заметил, что длинные слова встречаются в текстах любого языка реже, чем короткие. Это по всей видимости связано с природой человека и вообще любого живого существа. На основе этого наблюдения Зипф вывел два закона.

Первый закон Зипфа Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице. Тем словам, что встречаются реже – ранг, равный двойке и т.п.

Первый закон Зипфа Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной. Такая зависимость обычно отображается гиперболой. Значение константы Зипфа для разных языков различно, но внутри одной языковой группы оно остается неизменным.

Первый закон Зипфа Частота появления (вхождения) того или иного слова является отношением количества появления слова к общему количеству слов в тексте. Таким образом, частота слова не может быть больше единицы и составляет в реальности сотые и тысячные доли.

Первый закон Зипфа Для русского языка константа равна примерно 0,06-0,07.

Первый закон Зипфа Примеры работы закона: Если наиболее распространенное слово встречается в тексте 100 раз, то следующее по распространенности встретится не 99 и не 90 раз, а примерно 50! Самое часто встречаемое слово в английском языке the употребляется в 10 раз чаще, чем слово, имеющее ранг, равный 10. В 100 раз чаще, чем слово, имеющее ранг 100 и т.д.

Второй закон Зипфа Зипф определил, что частота вхождения слов и количество слов, входящих в текст с данной частотой, тоже взаимосвязаны. частота вхождения слов количество слов

Второй закон Зипфа Получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка. С другой стороны, на каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Отличаться будут лишь коэффициенты.

Следствия законов Зипфа Законы Зипфа универсальны. Они применимы не только к текстам. В аналогичную форму выливается, например, зависимость между количеством городов и числом проживающих в них жителей. Характеристики популярности ресурсов интернета отвечают законам Зипфа. В законах Зипфа отражается «человеческое» происхождение объектов.

Как ПС используют законы Зипфа Рассмотрим график первого закона:

Как ПС используют законы Зипфа Из анализа графика можно предположить, что наиболее значимые для текста слова лежат в средней части графика.

Центральная часть графика Центральная зона графика содержит термины, наиболее характерные для данного текста. Они в совокупности выражают специфичность текста, отличие его от других, охватывают его основное содержание.

Левая и правая часть графика Действительно, наиболее часто встречаемые слова – слева – это предлоги, местоимения, артикли и т.д. Справа – редко встречаемые слова. Они не несут в большинстве случаев особого смыслового значения. Хотя иногда, они, наоборот, бывают весьма важны (об этом чуть позже).

Значимые слова Каждая ПС по-своему решает, какие слова отнести к наиболее значимым. Однако, если к числу значимых будет отнесены слишком много слов, то важные термины будут забиты «шумом» случайных слов. Если значимых слов будет слишком мало, то есть риск потерять главное.

Стоп-слова Для того, чтобы безошибочно сузить диапазон значимых слов, создается словарь «бесполезных» слов или «стоп-слов». Словарь этих слов («стоп-лист») содержит, например, артикли и предлоги, частицы и личные местоимения.

Инверсная частота Инверсная частота термина i = log ( количество документов в базе данных / количество документов с термином i ).

Весовой коэффициент Вес термина i в документе j = частота термина i в документе j * инверсная частота термина i

Весовой коэффициент При определении значимых слов применяется и т.н. «весовой коэффициент». Часто встречаемое слово имеет весовой коэффициент, близкий к нулю. Слово, встречаемое редко, - весьма высокий коэффициент.

Матричное представление

Принцип работы современной ПС Современные ПС имеют пространственно-векторную модель построения базы данных. Она позволяет получить результат, отвечающий запросу даже в том случае, когда в найденном документе не окажется ни одного ключевого слова!

Принцип работы современной ПС Это достигается благодаря тому, что все документы базы располагаются в виртуальном многомерном пространстве. Координаты каждого документа зависят от содержащихся в тем терминов, их весовых коэффициентов, положения терминов внутри документа и т.п. Таким образом, документы с похожим набором терминов оказываются в этом пространстве поблизости и ПС их выдает в ответ на запрос.

Принцип работы современной ПС

Полнота и точность поиска

Релевантность Релевантным называется документ, имеющий отношение к сделанному Вами запросу, т.е. формально содержащий запрашиваемую Вами информацию. Англ. relevant – «подходящий, относящийся к делу».

Полнота поиска Коэффициентом полноты поиска называют отношение количества полученных релевантных документов к общему количеству существующих в базе данных релевантных документов: Коэф. полноты поиска= Полученные релевантные документы Общее количество релевантных документов в базе данных ПС

Полнота поиска В идеальной ПС коэффициент полноты поиска = 1. А противоположный ему коэффициент потерь информации = 0. В реальности коэффициент полноты поиска = 0,7-0,9

Точность поиска Коэффициентом точности поиска называют отношение количества релевантных результатов к общему количеству документов, содержащихся в ответе ПС на запрос: Коэф. точности поиска= Количество релевантных документов Общее количество документов в ответе ПС на запрос

Точность поиска В идеальной ПС коэффициент точности поиска = 1. А противоположный ему коэффициент поискового шума= 0. В реальности коэффициент точности поиска = 0,1-1

Полнота и точность Нередко количество размещенных в интернете релевантных пользователю документов может составлять десятки тысяч. В то же время релевантная информация в них совпадает, и пользователю достаточно изучить лишь несколько документов из числа найденных. Таким образом, полнота в сравнении с точностью является второстепенным критерием качества информационного поиска.

Полнота и точность

Пертинентность На практике используется еще и неформальное понятие – пертинентность. Это соотношение объема полезной для пользователя информации к объему полученной. Зачастую это соотношение имеет решающее значение.

Релевантность и пертинентность Пользователь Запрос Информационная потребность База данных ПС Ответ ПС на запрос Релевантность Пертинентность

Повышение пертинентности Средства повышения пертинентности: уточнение формулировок запросов, ранжирование по весовым критериям, ограничение числа выданных в результате поиска документов.

Морфологический анализ

Почти все современные ПС учитывают изменения слова в поиске документов. Указывая в строке поиска слово, мы увидим в результате поиска документы, содержащие варианты этого слова, измененные по падежам, числу, спряжению и т.д.

Морфологический анализ Для непрофессионалов морфологический анализ – это удобная функция. Она позволяет производить поиск по всем вариантам слов сразу и находить даже документы, где слово используется в другой форме.

Морфологический анализ Для профессионального поиска морфологический анализ не всегда пригоден. Он лишает поиск гибкости. Морфологический анализ может увеличить количество документов, выдаваемых по запросу, но количество релевантной информации уменьшится.

Эффективный поиск

Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности, в то же время – меньше время и другие ресурсы, затрачиваемые на проведение поиска.

Расширенный поиск Многие современные ПС с целью повышения эффективности поиска позволяют вместо простого поиска производить т.н. «расширенный». Он доступен по ссылке на странице поиска и представляет собой форму, которую нужно заполнить, ответив на дополнительные вопросы.

Сложный поиск Кроме этого возможен и т.н. «сложный» поиск с использованием булевых операторов, то есть поиск с помощью логических операторов. Булевый поиск станет темой нашего следующего занятия.

Этапы поисковой процедуры Формирование потребности в информации Формирование эффективного запроса к ПС Поиск нужной информации в ответе ПС

Формирование потребности На этой фазе определяется цель поиска, его стратегия и область проведения поиска. Информационные потребности могут относиться к разным областям, но на практике они сводятся к общим шаблонам поиска:

Шаблоны поиска Поиск новостей, поиск людей, поиск предприятий и организаций, поиск документов, поиск музыки, видео и графики, поиск программного обеспечения, и т.д.

Формирование запроса Вторая часть поисковой процедуры предусматривает многовариантность подходов и решений при формализации запроса. Здесь же решается вопрос о выборе конкретной ПС или каталога.

Формирование запроса Основная задача при этом – формирование эффективного запроса. Основная проблема заключается в том, что в каждой ПС используется свой информационно-поисковый язык. Хотя у различных языков этого типа много общего, например, схожий набор булевых операций.

Формирование запроса В настоящее время не существует единого стандарта языка запросов к ПС, хотя попытки стандартизации ведутся. Таким образом, в наших лекциях мы обратимся только к двум ПС: Google и Яндекс для иллюстрирования работы языка запросов.

Поиск нужной информации Третий этап является определяющим: от его реализации зависит, будет ли найденная информация пертинентной. На этом этапе пользователь работает с конечным результатом поиска – откликом ПС на запрос.

Информационно-поисковый язык

ИПЯ Информационно-поисковые языки (ИПЯ), то есть языки, на которых обращаются пользователи к системе.

Основные элементы ИПЯ Знак + обязательно должен быть в документе. Знак - ни в коем случае не должно быть в документе. Знак * - позволяет усекать термин справа

Булевые операторы AND (И), OR (ИЛИ), NOT (НЕ), NEAR (ВБЛИЗИ)

ИПЯ пробел или & логическое И (в пределах абзаца) && логическое И (в пределах документа), или | логическое ИЛИ ~ бинарный оператор И НЕ (в пределах абзаца) ~~ бинарный оператор И НЕ (в пределах докум.) ( ) группирование слов /(число) расстояние в словах, где "число" число слов между словами в запросе плюс единица.

ИПЯ + Обязательное наличие слова в документе. &&/(число) Расстояние в предложениях Поиск точной фразы ! Без учета морфологии !! Для поиска форм только этого слова. Пример:!!день Ищет дня,дни но не формы глагола деть * Позволяет усекать термин справа

ИПЯ $title(выражение) Поиск в заголовке. $anchor(выражение) Поиск в тексте ссылок image=значение Поиск файла изображения hint=(выражение) Поиск в подписях к изображению url =значение Поиск на заданном сайте link= Поиск ссылок на заданной странице mime= Поиск файлов заданного типа (pdf,doc...) lang=«язык» Поиск документов на определенном языке date=«ГГГГ{*|ММ{*|ДД}}» Поиск документов датированных определенной датой

Поисковые системы

Какая лучше?

Google

На сегодняшний день поисковик Google проиндексировал наибольшее число web- страниц – свыше 8 млрд.! Это значит, что вероятность найти нужный документ с помощью Google выше. При этом, как правило, Google обеспечивает более высокую релевантность поиска, чем другие ПС.

Google

две особенности Google: использование морфологического анализа слов; отсутствие разницы между прописными и строчными буквами в запросе

Google По умолчанию Google ставит вместо пробела между всеми словами в запросе логическое «И». Если общее слово является необходимым для получения результатов, можно включить его в запрос, помещая знак «+» перед ним без пробела. Наоборот, если Вы хотите исключить слово из результатов поиска, поместите знак «-» перед ним без пробела

Google Чтобы находить страницы с тем или иным ключевым словом, используется оператор OR. Если необходимо искать не только слово, указанное в запросе, но также и все его синонимы, поместите знак тильды («~») перед вашим словом без пробела.

Google Для поиска определений слов в словарях используйте оператор define: При поиске информации, содержащей диапазон чисел, используйте многоточие … Для ограничения поиска документов по дате, укажите оператор date:

Google Иногда необходимо, чтобы в результаты поиска не попадали сайты «для взрослых». Для этого используйте оператор safesearch: Для поиска информации на конкретном сайте используйте оператор site: в таком виде: слово site:адрес

Google Google позволяет производить несложные математические расчеты с помощью специальных операторов: + сложение- вычитание * умножение / деление % of – доля в процентах. Напр: 5% of 30 ^ возведение в степень. Напр: 2^5

Яндекс

Alta Vista

Мета-поиск. Search.com