04.06.2005 Диалог-2005, "Звенигородский" 1 ФОРМИРОВАНИЕ ЗАПРОСОВ К ПОИСКОВОЙ МАШИНЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ИНТЕРНЕТА А.Л. Воскресенский, avosj@yandex.ru.

Презентация:



Advertisements
Похожие презентации
РАЗРАБОТКА ТРАНСЛЯТОРА ПОИСКОВЫХ ЗАПРОСОВ К ПОИСКОВЫМ СИСТЕМАМ Р.М. Пономаренко \ Волжский политехнический.
Advertisements

Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Как найти "бесплатный сыр" в интернете? Работа с поисковыми системами.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
© Московский центр Интернет-образования. Белкин П.Ю., Общие вопросы организации поиска информации в Internet.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Поиск и копирование мультимедийных ресурсов в сети Лапшева Елена Евгеньевна, руководитель центра непрерывной подготовки IT-специалистов факультета КНиИТ.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Бесплатное продвижение возможно, или внутренняя оптимизация сайта. Якимов Василий телефон:
Диалоговая информационно-аналитическая и прогнозно- ориентирующая система ДИАПОС НИИ Информационных технологий Мониторинг социально- экономического развития.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Пензенский государственный университет Развитие методов калибровки средств измерений: калибровка в рабочих условиях эксплуатации к.т.н., доцент Ординарцева.
О фильтре «ТЫ СПАМНЫЙ». Оптимизируем тексты под новые требования Яндекса Елена Камская Seolib.ru 24 марта 2010.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Статистические гипотезы Лекция 2.
Информационный поиск в Интернете Павел Морозов
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. СТАТИСТИЧЕСКАЯ ОЦЕНКА.
3.1. Назначение онтологий. Информационный поиск..
Транксрипт:

Диалог-2005, "Звенигородский" 1 ФОРМИРОВАНИЕ ЗАПРОСОВ К ПОИСКОВОЙ МАШИНЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ИНТЕРНЕТА А.Л. Воскресенский, Г.К. Хахалин,

Диалог-2005, "Звенигородский"2 Проблемы пользователя при поиске информации Формулирование запроса Формулирование запроса Выбор ключевых слов Выбор ключевых слов Релевантность результатов Релевантность результатов Релевантность результатов Релевантность результатов Ранжирование результатов Ранжирование результатов

Диалог-2005, "Звенигородский"3 Эксперимент: постановка задачи Если исходить из принципа композиции Фреге, что значение фразы является функцией значений ее частей и способа комбинирования этих частей, то значение слова (или группы слов) можно определить по формам и расположению окружающих слов, т.е. по контексту. Тогда, если в поисковом запросе опустить некоторое слово или группу слов (исключаемый элемент текста обозначим через X), то в результате выполнения запроса получим документы, в которых на месте пропущенного X будут стоять элементы текста, имеющие тот же самое (или близкое) значение, что и в Х. Если исходить из принципа композиции Фреге, что значение фразы является функцией значений ее частей и способа комбинирования этих частей, то значение слова (или группы слов) можно определить по формам и расположению окружающих слов, т.е. по контексту. Тогда, если в поисковом запросе опустить некоторое слово или группу слов (исключаемый элемент текста обозначим через X), то в результате выполнения запроса получим документы, в которых на месте пропущенного X будут стоять элементы текста, имеющие тот же самое (или близкое) значение, что и в Х. поиск новых в интернетезнаний строительных технологий версий BIOS поставщиков оборудования православных страниц каналов коммуникаций талантливых авторов источников дохода тематических ресурсов информации рецептов

Диалог-2005, "Звенигородский"4 Эксперимент: постановка задачи При учете контекста документа в результате поиска будут автоматически получены документы той же предметной области, содержащие элементы текста со значениями, которые близки к смыслу исходного документа (на основании которого составлялся запрос), но в какой-то степени и отличающиеся от него. Соответственно, эти документы могут содержать знания, отличающиеся от знаний, содержащихся в исходном документе, т.е. новые знания. При учете контекста документа в результате поиска будут автоматически получены документы той же предметной области, содержащие элементы текста со значениями, которые близки к смыслу исходного документа (на основании которого составлялся запрос), но в какой-то степени и отличающиеся от него. Соответственно, эти документы могут содержать знания, отличающиеся от знаний, содержащихся в исходном документе, т.е. новые знания.новые знания.новые знания.

Диалог-2005, "Звенигородский"5 Планирование и выполнение эксперимента Две функции отклика: Две функции отклика: число найденных в результате запроса документов Y 1 число найденных в результате запроса документов Y 1 число релевантных документов, содержащихся в первых 50-ти найденных документах Y 2 число релевантных документов, содержащихся в первых 50-ти найденных документах Y 2 Три фактора: Три фактора: A наличие пропущенного фрагмента текста; A наличие пропущенного фрагмента текста; B учет порядка слов в запросе; B учет порядка слов в запросе; C учет морфологических форм слов. C учет морфологических форм слов. Все факторы качественные: (0.. 1 или -.. +) Все факторы качественные: (0.. 1 или -.. +) План эксперимента: 2 3 План эксперимента: реплики каждого опыта для оценки адекватности 2 реплики каждого опыта для оценки адекватности Результаты Результаты Результаты

Диалог-2005, "Звенигородский"6 Результаты эксперимента ОпытРеплика Y1Y1Y1Y1 Ŷ1Ŷ1Ŷ1Ŷ1 Y2Y2Y2Y2 Ŷ2Ŷ2Ŷ2Ŷ2 (1) , , , , a , , , , b 1180, , , , ab , , , , c , , , , ac , , , , bc , , , , abc , , , , Нормировка: Ŷ ji = (Y ji – Y imin )/(Y imax – Y imin ) Y 1t =0,433-0,129A-0,865B-0,120C+ +0,129AB-0,126AC+0,120BC+ +0,126ABC Y 2t =0,517+0,157A-0,039B-0,0004C+ +0,207AB-0,264AC+0,122BC- -0,246ABC Y 1t =0,433-0,865B Y 2t =0,517+0,157A+0,207AB- -0,264AC+0,122BC-0,246ABC

Диалог-2005, "Звенигородский"7 Проверка значимости и функции распределения вероятностей Используемые обычно процедуры проверки значимости, основанные на нормальном распределении, неприменимы для оценки результатов экспериментов в социальной сфере из-за различия в областях существования нормального распределения (-..+) и реальных результатов (xx 0 ), а также влияния величины выборки на значения моментов при аппроксимации наблюдаемых значений нормальным распределением. Используемые обычно процедуры проверки значимости, основанные на нормальном распределении, неприменимы для оценки результатов экспериментов в социальной сфере из-за различия в областях существования нормального распределения (-..+) и реальных результатов (xx 0 ), а также влияния величины выборки на значения моментов при аппроксимации наблюдаемых значений нормальным распределением. Кривые плотности нормального распределения для различных значений параметров и : I. = 0, = 2,5; II. = 0, = 1; III. = 0, = 0,4; IV. = 3, = 1. (Источник: БСЭ (на трех дисках). Новый Диск, Москва, 2002) Кривые плотности распределения Парето для различных значений параметров и x 0

Диалог-2005, "Звенигородский"8 Обсуждение результатов Учет синтаксиса (порядка слов) ведет к уменьшению общего числа найденных страниц. Поскольку это не уменьшает числа релевантных ссылок на первых страницах результата поиска, можно сделать вывод, что учет синтаксиса снижает шум поиска. Учет синтаксиса (порядка слов) ведет к уменьшению общего числа найденных страниц. Поскольку это не уменьшает числа релевантных ссылок на первых страницах результата поиска, можно сделать вывод, что учет синтаксиса снижает шум поиска. Создание «смысловых ловушек» в запросе увеличивает число релевантных результатов поиска. Морфология и синтаксис напрямую не влияют на релевантность, но при взаимодействии со «смысловыми ловушками» учет синтаксиса приводит также к увеличению релевантности, но требование включения в результат тех же словоформ, как и в запросе, приводит к ее уменьшению. Создание «смысловых ловушек» в запросе увеличивает число релевантных результатов поиска. Морфология и синтаксис напрямую не влияют на релевантность, но при взаимодействии со «смысловыми ловушками» учет синтаксиса приводит также к увеличению релевантности, но требование включения в результат тех же словоформ, как и в запросе, приводит к ее уменьшению. Высокие значения нулевого коэффициента указывают на наличие неучтенных факторов или взаимодействий факторов. Необходимо построение модели, точнее описывающей исследуемые зависимости. Высокие значения нулевого коэффициента указывают на наличие неучтенных факторов или взаимодействий факторов. Необходимо построение модели, точнее описывающей исследуемые зависимости.

Диалог-2005, "Звенигородский"9 Выводы 1)на документах Интернета можно проводить эксперименты, результаты которых повторяемы и поддаются статистической оценке, при этом общие закономерности определяются, в основном, грамматическими особенностями языка; 2)поиск новых текстов, включающих неизвестные пользователю выражения, возможен, при этом использование контекста позволяет на стадии поиска обойтись без использования словаря синонимов; 3)при разработке методики построения «смысловых ловушек» можно получать новые знания из Интернета и для этого достаточно использовать способности обычного пользователя, владеющего общими навыками манипулирования естественно-языковыми запросами (выделение квазиоснов, элемента Х и т.п.); 4)разработка методики требует дополнительных экспериментов с более представительным реестром запросов и с другими поисковиками.