Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.

Презентация:



Advertisements
Похожие презентации
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Advertisements

3.1. Назначение онтологий. Информационный поиск..
Алгоритмические основы разработки поисковой системы Трегубов А.А., Кононова Т.С. Таганрогский Государственный Радиотехнический университет Факультет информационной.
Информационный поиск в Интернете Павел Морозов
Доклад «Теоретические аспекты информационного поиска» Автор Гречиц Алёна Анатольевна.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Введение в Информационный Поиск Денис Турдаков ИСП РАН / ВМиК МГУ.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Методы поиска в структурированных файлах функции ранжирования Мытрова Марина, 425 гр.
Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Анализ данных Индексирование данных и обработка запроса.
Функция Старшего диспетчера Бюро Расписаний «Новый период обучения» Первым действием при подготовке расписания на новый период обучения – учебный год,
Информационно-поисковые системы. Сычев А.В г.1 Математические модели документального поиска Воронежский государственный университет Факультет компьютерных.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Текстовые факторы ранжирования: от анализа до разработки сайта Трофименко Евгений Александрович (495) Корпорация.
Задача о максимальном потоке в сети Алгоритм Фалкерсона-Форда.
Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
Транксрипт:

Информационный поиск

План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения

Модель векторного пространства Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2

Косинусная мера сходства, word1 q d1 d2 word2

Взвешивание термина «The information retrieval» Нам надо: 1.Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово The) 2.Сделать вес максимальным, если слово встречается часто только в некоторых документах 3.Сделать вес поменьше, если слово встречается реже, чем во 2 пункте

Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t -> tf × idf

Ранжирование Необходимо определить 10 лучших результатов Как это сделать?

Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса do вычисляем w t, q for each пары (d, tf t, d ) do Scores[d]+=wf t, d × w t, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших

Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании?

Параметрические и зонные индексы поля метаданных зоны метаданных Дата создания Формат документа Название документа Аннотация

Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья

Индексирование зон Для каждой зоны можно создать стандартный инвертированный список документов, в которых встречается это слово

Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов»

Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна

Вычисление весов на основе машинного обучения 1.Имеем множество обучающих примеров, состоящий из a)q j b)d j c)r(q j,d j ) Каждому документу дается значение релевантности вручную(r)

2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения Вычисление весов на основе машинного обучения

Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g.

Заключение -Модель векторного пространства -Методы ранжирования -Определение весов на основе машинного обучения