Статистические оценки семантических и других лингвистических свойств слов.

Презентация:



Advertisements
Похожие презентации
Частотные словари. Частотный словарь, вид словаря (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности.
Advertisements

ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
3.1. Назначение онтологий. Информационный поиск..
Информационно-поисковые системы. Сычев А.В г.1 Математические модели документального поиска Воронежский государственный университет Факультет компьютерных.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Информационный поиск в Интернете Павел Морозов
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
Лекция 12 РАЗЛИЧЕНИЕ СИГНАЛОВ МНОГОАЛЬТЕРНАТИВНЫЕ ЗАДАЧИ ВЫБОРА РЕШЕНИЯ.
Диалог-2005, "Звенигородский" 1 ФОРМИРОВАНИЕ ЗАПРОСОВ К ПОИСКОВОЙ МАШИНЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ИНТЕРНЕТА А.Л. Воскресенский,
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Доверительный интервал и доверительная вероятность.
Транксрипт:

Статистические оценки семантических и других лингвистических свойств слов

Частотные словари Информацию о каких словах следует включать? Информацию о каких словах следует включать? Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса? Как оценивать информацию о частотности слова, полученную на материале конкретного корпуса? Как выделять значимые слова? Как выделять значимые слова?

Частотное поведение слова Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное Позиция в частотном спектре: низкоранговое (высокочастотное) vs. низкочастотное ipm, wpm – количество употреблений на миллион ipm, wpm – количество употреблений на миллион

Частотные словари В Частотный словарь приводится либо f (x), либо нормированная частота где N число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Частотный словарь имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Частотный словарь приводятся и абсолютные, и относительные характеристики. Частотный словарь используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).N

Частотные словари Для русского языка было разработано несколько частотных словарей. Пионером был словарь Г. Йоссельсона, изданный в 1953 году в Детройте на материале языка по преимуществу дореволюционной России. Словари Э.А. Штейнфельд (1963), Л.Н. Засориной (1977), Л. Леннгрена (1993) и др. были созданы на основе относительно небольших коллекций текстов (400 тысяч - 1 миллион слов) и в большой степени отражают специфику русского языка советского периода: частоты слов товарищ и партия в них сопоставимы со служебными словами, а слово расческа отсутствует. Существуют также специализированные словари, в частности, словарь Е.М. Степановой (1976), посвященный общенаучной лексике. Отдельную отрасль статистических словарей составляют словари языка Пушкина, Достоевского, Грибоедова, Цветаевой (Виноградов , Шайкевич и др. 2003, Поляков 1999, Белякова и др. 1996), которые полностью описывают язык данного писателя.

50 самых частотных слов в английском языке the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron all det get v her det make v who pron as prep out adv up adv see v know v time n take v the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron the det be v of prep and conj a det in prep to infinitive-marker have v it pron to prep for prep i pron that conj you pron he pron on prep with prep do v at prep by prep not adv this det but conj from prep they pron his det that det she pron or conj which det as conj we pron an det say v will modal would modal can modal if conj their det go v what det there pron all det get v her det make v who pron as prep out adv up adv see v

Частоты слов, полученные по выборке, должны отличаться от частот слов, существующих в совокупности, не более чем на заданную величину относительной ошибки., N – объем выборки, δ - заданная относительная ошибка, p – частота, z p – константа Пример: словарь Торндайка и Лорджа – указывали пределы p p

Сравнительная частота слов по частотным словарям Лемма Ленн грен Засор ина Шт ейнф. НК РЯ Интер нет власть думать загрязнение задача изучение любить милый

Частотные словари Если слово встретилось в тексте один раз, то при нормальном распределении это не влияет на вероятность его употребления там во второй раз. Но в реальности это не так. Каждый текст имеет некоторую собственную тему, слова которой в этом тексте будут употребляться намного чаще среднего. В тексте про хоббитов слово хоббит будет употребляться так же часто, как и многие служебные слова, что существенно повысит его частоту в корпусе, который будет включать хотя бы один такой текст. В результате частотный список, построенный на основе корпуса, отражает специфику тех текстов, которые попали в него при его составлении.

Частотные словари Корпус большего размера, отражающий большее количество тем и функциональных стилей (корпус типа BNC или НКРЯ), обеспечивает хорошую надежность для наиболее частотных элементов. Тем не менее, дальнейшее увеличение объема текстов в ущерб их разнообразию (см., например, проекты создания Гига-корпусов английского и китайского языков, содержащих более миллиарда словоупотреблений новостных текстов, Cieri & Liberman 2002), может приводить к меньшей надежности частотного списка на таких корпусах за счет сдвига их словаря в сторону новостной лексики.

Частотные словари Поскольку задачей частотного словаря является не просто ранжировать слова по их частоте в отдельном корпусе, но и определить лексическое ядро языка, необходимо отделить слова, часто встречающиеся во многих текстах, от тех, чье лексическое поведение подобно словам Норьега или хоббит, и которые случайно оказались в той или иной позиции частотного списка.

Чешский национальный корпус: средняя уменьшенная частота (ARF, Average Reduced Frequency), частота слова взвешивается по расстоянию между отдельными словоупотреблениями (Čermak & Křen 2005). коэффициент D, введенный А. Жуйаном (Juilland et al. 1970), который принимает во внимание как число документов, в которых встречается слово, так и его относительную частоту в этих документах: где μ – средняя частота слова по всему корпусу, σ – среднее квадратичное отклонение этой частоты на отдельных документах, n – число документов, в которых встречается это слово. Значение D у слов, встречающихся в большинстве документов, близко к 100, а у слов, часто встречающихся лишь в небольшом числе документов, близко к 0.

Частотные словари слова жуткий, специфический и сырье имеют примерно равную частоту (21 употребление на миллион слов), но при этом коэффициент D у специфический - 66, сырье - 18, а у жуткий - 78, что означает, что последнее слово значимо для большего числа предметных областей и (при прочих равных условиях) имеет большие шансы на место в неспециализированном словаре.

Частотные словари: «значимая» лексика Частотные словари функциональных стилей составлены на основе подкорпусов художественной литературы, публицистики, другой нехудожественной литературы и устной речи. В список включены самых частотных лемм этих подкорпусов. Список наиболее типичных лемм для каждого типа текстов был выделен на основе сравнения частоты лемм в таких текстах и в остальном корпусе. В качестве метрики сравнения был использован критерий отношения правдоподобия (log- likelihood), вычисляемый на основе следующей матрицы: ПодкорпусДругие текстыВесь корпус Частотааbа+b Размерсdc+d

Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу); Информационный поиск (индексирование документа, поиск документа, близкого (наиболее релевантного) запросу); Компьютерная лексикография (выделение «значимой» лексики, выделение коллокаций (MWE), разрешение семантической неоднозначности (WSD)); Компьютерная лексикография (выделение «значимой» лексики, выделение коллокаций (MWE), разрешение семантической неоднозначности (WSD)); грамматическая разметка (снятие грамматической омонимии) грамматическая разметка (снятие грамматической омонимии)

Весовые функции частота (вероятность) частота (вероятность) документная частота документная частота tf.idf tf.idf меры «близости» / различия (дифференцирующая функция): меры «близости» / различия (дифференцирующая функция): Коэффициенты Коэффициенты T-score T-score MI-score MI-score LogLikelihood Ratio LogLikelihood Ratio Хи-квадрат Хи-квадрат Косинусная мера Косинусная мера Коэффициенты корреляции Коэффициенты корреляции

Используемые модели Задачи выявления лексических (грамматических) свойств языковых элементов (/ текстов) сводятся к задачам: кластеризации и классификации Векторное пространство Векторное пространство Вероятностные модели Вероятностные модели «Языковые» модели (марковские модели) «Языковые» модели (марковские модели) Энтропийные модели Энтропийные модели

Модель «мешок слов» - векторная модель документа Модель «мешок слов» - векторная модель документа Вероятностная модель Вероятностная модель Информационная модель Информационная модель И др. И др. Тематическая значимость лексемы в тексте

Информационный поиск (ИП) Модель поиска: Модель поиска: Задача: найти Х Задача 1: создать поисковый образ объекта - выделить множество диагностических парметров Задача 2: сравнить объекты и найти образы объектов «максимально близкие» к искомому образу

Признаки: координаты в пространстве Близость (подобие): близость в пространстве Поисковый образ: вектор в пространстве признаков Векторная модель

Для построения пространства терминов обычно используются основы слов, отдельные слова, а также целые фразы, пары слов и т.д. Для построения пространства терминов обычно используются основы слов, отдельные слова, а также целые фразы, пары слов и т.д. Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов w t. Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов w t. Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов. Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов. Векторная модель

Ключевые вопросы : Ключевые вопросы : Как выбирать размерность пространства терминов N ? Как выбирать размерность пространства терминов N ? Как вычислять весовые коэффициенты w t ? Как вычислять весовые коэффициенты w t ? Векторная модель

попытаемся определить список значимых слов: попытаемся определить список значимых слов: Законы Зипфа универсальны. В принципе, они применимы не только к текстам. В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет - - тоже отвечают законам Зипфа. Не исключено, что в законах отражается "человеческое" происхождение объекта. Так, например, ученые давно бьются над расшифровкой манускриптов Войнича. Никто не знает, на каком языке написаны тексты и тексты ли это вообще. Однако исследование манускриптов на соответствие законам Зипфа доказало: это созданные человеком тексты. Графики для манускриптов Войнича точно повторили графики для текстов на известных языках. Векторная модель: весовые коэффициенты

ТОЖЕ 1 ФОРМУ 1 ИНТЕРНЕТ 1 НИХ1 КАКОМ1 ЯЗЫКАХ1 ЧТО1 АНАЛОГИЧНУЮ1 ИСКЛЮЧЕНО1 ХАРАКТЕРИСТИКИ1 ТАК1 ПРОИСХОЖДЕНИЕ1 ОТВЕЧАЮТ1 НАПИСАНЫ1 НИКТО1 КОЛИЧЕСТВА1 ЗАКОНАХ1 ЯЗЫКЕ1 ЧЕЛОВЕКОМ1 ТЕКСТОВ 1 ПРОЖИВАЮЩИХ 1 ОТ 1 К 1 ЧЕЛОВЕЧЕСКОЕ 1 БЬЮТСЯ 1 ГРАФИКИ 2 ДЛЯ 2 ВОЙНИЧА 2 ЭТО 2 НАПРИМЕР 2 ЗАКОНАМ 2 МАНУСКРИПТОВ 3 НА 3 ТЕКСТЫ 3 НЕ 3 ЗИПФА 3 В 5 ДАВНО1 ЗАКОНЫ1 ЗНАЕТ1 ВЫЛИВАЕТСЯ1 СОЗДАННЫЕ1 ГОРОДОВ1 И1 УЗЛОВ1 ТОЧНО1 ПРИНЦИПЕ1 ПОВТОРИЛИ1 ОДНАКО1 ЛИ1 ДОКАЗАЛО1 ЗАВИСИМОСТЬ1 ЧИСЛА1 ВООБЩЕ1 СЕТИ1 ИССЛЕДОВАНИЕ1

Смысл абзаца очень точно выражают слова: зипфа, манускриптов, войнича, законам. Запрос типа: + "закон* зипфа" + "манускрипт* войнича" непременно найдет нам этот документ. Однако в область попали и слова: на, не, для, например, это. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. Весовые коэффициенты

Принцип Луна (Luhn) Самые часто встречающиеся слова – не самые значимые!

НЕ3 ЗИПФА3 Как различить не, тексты и зипфа? 3 ТЕКСТЫ Весовые коэффициенты Tf = 3

idf: idf: Инверсная частота термина i = log (количество документов в базе данных / количество документов с термином i). Весовые коэффициенты Каждому термину можно присвоить весовой коэффициент, отражающий его значимость: Вес термина i в документе j = частота термина i в документе j х инверсная частота термина i.

Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. Весовые коэффициенты

Расчет tf x idf tf ik – частота термина T k в документе D i tf ik – частота термина T k в документе D i idf k – обратная документальная частота для термина T k в коллекции С idf k – обратная документальная частота для термина T k в коллекции С N – общее число документов в коллекции N – общее число документов в коллекции N k - количество документов в коллекции C, содержащих термин T k N k - количество документов в коллекции C, содержащих термин T k

Все документы базы данных размещаются в воображаемом пространстве. Все документы базы данных размещаются в воображаемом пространстве. Координаты каждого документа зависят от структуры терминов, в нем содержащихся (от весовых коэффициентов, положения внутри документа, от расстояния между терминами и т.п). Координаты каждого документа зависят от структуры терминов, в нем содержащихся (от весовых коэффициентов, положения внутри документа, от расстояния между терминами и т.п). В результате окажется, что документы с похожим набором терминов разместятся в пространстве ближе друг к другу В результате окажется, что документы с похожим набором терминов разместятся в пространстве ближе друг к другу Векторная модель

Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве Компоненты вектора соответствуют N терминам, образующим пространство. Компоненты вектора соответствуют N терминам, образующим пространство. Векторная модель

Составим запрос: Составим запрос: корабли в бутылках. Получив его, поисковая система удалит лишние слова, выделит термины и вычислит вектор запроса в пространстве документов (стрелочка на рисунке). Установив некоторый диапазон соответствия, система выдаст документы, попавшие в заштрихованную область на рисунке. Получив его, поисковая система удалит лишние слова, выделит термины и вычислит вектор запроса в пространстве документов (стрелочка на рисунке). Установив некоторый диапазон соответствия, система выдаст документы, попавшие в заштрихованную область на рисунке. Векторная модель

Релевантность выражается через подобие векторов Релевантность выражается через подобие векторов Для вычисления подобия векторов используется косинусная метрика Для вычисления подобия векторов используется косинусная метрика Векторная модель

Бинарные веса: Бинарные веса: W ij =1 если документ d i содержит термин t j, иначе 0. Частота термина tf ij, т.е. сколько раз встретился термин t j в документе d i Частота термина tf ij, т.е. сколько раз встретился термин t j в документе d i tf x idf: tf x idf: чем выше частота термина в документе – тем выше его вес, но чем выше частота термина в документе – тем выше его вес, но термин должен не часто встречаться во всей коллекции документов термин должен не часто встречаться во всей коллекции документов Расчет весов терминов

Tf.idf иногда вместо tf используют wf иногда вместо tf используют wf

Нормализация Нормализация представляет собой способ уменьшения абсолютного значения веса индексных терминов, обнаруженных в документе. Одним из наиболее распространенных методов, решающих данную проблему, является косинусная нормализация. При использовании этого метода нормализации вес каждого индексного термина делится на Евклидову длину вектора оцениваемого документа. Евклидова длина вектора определяется формулой: Нормализация представляет собой способ уменьшения абсолютного значения веса индексных терминов, обнаруженных в документе. Одним из наиболее распространенных методов, решающих данную проблему, является косинусная нормализация. При использовании этого метода нормализации вес каждого индексного термина делится на Евклидову длину вектора оцениваемого документа. Евклидова длина вектора определяется формулой: Вес термина: Вес термина:

Нормализация Один из способов нормализации оценки по частоте термина в документе по максимальной частоте треминов в документе. Для каждого документа d, пусть tf max (d) = max t tf t,d, where t ranges over all terms in d. Тогда нормализованная частота для каждого термина t из документа d Один из способов нормализации оценки по частоте термина в документе по максимальной частоте треминов в документе. Для каждого документа d, пусть tf max (d) = max t tf t,d, where t ranges over all terms in d. Тогда нормализованная частота для каждого термина t из документа d где a некторое число от 0 до 1, обычно 0.5. Это сглаживающий фактор. где a некторое число от 0 до 1, обычно 0.5. Это сглаживающий фактор.

Нормализация по длине документа K1 и b – параметры настройки (вычисляются экспериментальным путем): k1 – регулирует вклад частоты термина (=2), b – регулирует эффект длины документа (от 0 до 1, TREC – b=0.75)

Компоненты весовой функции Частота терминаДокументная частотанормализация Tf i,d df t N l 1+log(tf i,d ) C (косинусная) logN – log df t (log(N/df t ) ) a 0.5+(0.5*tf i,d )/maxi(tf i,d)

Расчет тематического веса на основе вероятностной модели информационного поиска Идея в том, что можно построить теоретическое распределение некоторого термина по текстам исходя из его средней частоты в целом массиве (например, распределение Пуассона с некоторыми параметрами). Если термин становится темой в некоторой подколлекции документов или в документе его распределение резко меняется и сильно отличается от теоретического. Задача: определить те тексты, в которых распределение элемента в тексте существенно отклоняется от предстказанного (теоретического) Идея в том, что можно построить теоретическое распределение некоторого термина по текстам исходя из его средней частоты в целом массиве (например, распределение Пуассона с некоторыми параметрами). Если термин становится темой в некоторой подколлекции документов или в документе его распределение резко меняется и сильно отличается от теоретического. Задача: определить те тексты, в которых распределение элемента в тексте существенно отклоняется от предстказанного (теоретического) (см., например, Manning, Christopher D., and Hinrich Schütze Foundations of Statistical Natural) и др.) (см., например, Manning, Christopher D., and Hinrich Schütze Foundations of Statistical Natural) и др.)

Вероятностная модель в 1977 году Robertson и Sparck-Jones (Робертсон и Спарк-Джоунз) обосновали и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции. в 1977 году Robertson и Sparck-Jones (Робертсон и Спарк-Джоунз) обосновали и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции.

Вероятностная модель В работах Букштейна, Свенсона и Хартера было показано, что распределение функциональных слов в отличие от специфических слов с хорошей точностью описывается распределением Пуассона. То есть, если ищется распределение функционального слова w в некотором множестве документов, тогда вероятность f(n) того, что слово w будет встречено в тексте n раз представляется функцией: В работах Букштейна, Свенсона и Хартера было показано, что распределение функциональных слов в отличие от специфических слов с хорошей точностью описывается распределением Пуассона. То есть, если ищется распределение функционального слова w в некотором множестве документов, тогда вероятность f(n) того, что слово w будет встречено в тексте n раз представляется функцией: распределение Пуассона. Значение параметра x варьируется от слова к слову, и для конкретного слова должно быть пропорционально длине текста. Слова, распределенные в совокупности документов согласно Пуассону, полезной информации не несут. распределение Пуассона. Значение параметра x варьируется от слова к слову, и для конкретного слова должно быть пропорционально длине текста. Слова, распределенные в совокупности документов согласно Пуассону, полезной информации не несут. λ i = cf i / N, где cf i – частота в коллекции λ i = cf i / N, где cf i – частота в коллекции

Вероятностная модель Допущения: Допущения: Вероятность термина в (коротком) фрагменте текста пропорциональна длине текста Вероятность термина в (коротком) фрагменте текста пропорциональна длине текста Вероятность встретить термин в коротком тексте более, чем один раз, «не отличается» от вероятности встретить термин один раз Вероятность встретить термин в коротком тексте более, чем один раз, «не отличается» от вероятности встретить термин один раз Вероятности встретить термин в непересекающихся фрагмеентах ткста независимы Вероятности встретить термин в непересекающихся фрагмеентах ткста независимы

Вероятностная модель СловоDf i cf i λ N(1- p(0;λ i ) «завышение» оценки Follows Transformation Soviet Students James Freshly Оценки для 6 слов из корпуса New York Times N(1-p(0;λ i ) – оценка частоты появления слова в соответствии с предположением о Пуассоновском распределении Всего документов

Оценка на основе обратной документной частоты Оценка шанса того, что документ релевантен относительно запроса: Оценка шанса того, что документ релевантен относительно запроса: P(R|d) – вероятность того, что документ релевантен P(-R|d) – вероятность того, что документ нерелевантен

Residual inverse document frequency Разница между логарифмом наблюдаемой обратной документной частоты термина и обратной документной частоты, предсказанной, исходя из предположения о Пуассоновском распределении термина в тексте Разница между логарифмом наблюдаемой обратной документной частоты термина и обратной документной частоты, предсказанной, исходя из предположения о Пуассоновском распределении термина в тексте

Вероятностная модель Пусть запрос – это множество терминов {w i }, а X – случайная величина со значениями 0 и 1, соответствующими присутствию или отсутствию термина в документе. В предположении о независимости терминов: Пусть запрос – это множество терминов {w i }, а X – случайная величина со значениями 0 и 1, соответствующими присутствию или отсутствию термина в документе. В предположении о независимости терминов: Если задача состоит только в том, чтобы упорядочить документы по релевантности, то последние 2 слагаемых можно опустить – константа по отношению к фиксированному запросу Тогда ранжирующая функция: Последнее слагаемое - также константа

Вероятностная модель Но: нам неизвестно релевантный или нерелевантный документ Но: нам неизвестно релевантный или нерелевантный документ Тогда необходимо сделать еще ряд допущений: Тогда необходимо сделать еще ряд допущений: Вероятность встретить термин в релевантном документе p –малая и и одинаковая для всех терминов Вероятность встретить термин в релевантном документе p –малая и и одинаковая для всех терминов Большинство документов – нерелевантные Большинство документов – нерелевантные

N - полное число документов в системе. R - число релевантных документов r - число релевантных документов, выданных в ответ на запрос n - полное число документов, выданных в ответ на запрос Таблица представляет результаты запроса, направленного системе поиска. Представленная таблица должна существовать для каждого из индексных терминов. Если мы обладаем всей информацией о релевантных и нерелевантных документах в коллекции документов, то применимы следующие оценки: Коэффициент при x i показывает, до какой степени можно провести дискриминацию по i-тому термину в рассматриваемой коллекции документов. В действительности, N может рассматриваться не только как полное количество документов во всей коллекции, но и в некотором ее подмножестве.

Комбинированный подход Okapi BM25 where f(q i,D) is q i 's term frequency in the document D, | D | is the length of the document D (number of words), and avgdl is the average document length in the text collection from which documents are drawn. k 1 and b are free parameters, usually chosen as k 1 = 1.2 and b = IDF(q i ) is the IDF (inverse document frequency) weight of the query term q i.

Векторная модель: Векторная модель: «Для построения пространства терминов обычно используются основы слов, отдельные слова, а также целые фразы, пары слов и т.д. «Для построения пространства терминов обычно используются основы слов, отдельные слова, а также целые фразы, пары слов и т.д. Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов wt. Документы и запросы представляются в виде векторов, компоненты которых соответствуют весам терминов wt. Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов» Чем больше используется терминов, тем сложнее понять какие подмножества слов являются общими для подобных документов» Тематические веса расчитываются на основе частоты термина в документе и частоты термина по документам Тематические веса расчитываются на основе частоты термина в документе и частоты термина по документам Достоинства модели: Достоинства модели: «Учет весов повышает эффективность поиска «Учет весов повышает эффективность поиска Позволяет оценить степень соответствия документа запросу Позволяет оценить степень соответствия документа запросу Косинусная метрика удобна при ранжировании Косинусная метрика удобна при ранжировании Проблемы: Проблемы: Нет достаточного теоретического обоснования для построения пространства терминов Нет достаточного теоретического обоснования для построения пространства терминов Поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными Поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными

Вероятностные модели Вероятностные модели Заключаются в оценке вероятности того, что документ d является релевантным по отношению к запросу q: Pr(R|d,q). Заключаются в оценке вероятности того, что документ d является релевантным по отношению к запросу q: Pr(R|d,q). При ранжировании документов в выборке ключевым являет Принцип Ранжирования Вероятностей, согласно которому если каждый ответ поисковой системы представляет собой ранжированный по убыванию вероятности полезности для пользователя список документов, то общая эффективность системы для пользователей будет наилучшей. При ранжировании документов в выборке ключевым являет Принцип Ранжирования Вероятностей, согласно которому если каждый ответ поисковой системы представляет собой ранжированный по убыванию вероятности полезности для пользователя список документов, то общая эффективность системы для пользователей будет наилучшей. Достоинства: Достоинства: Хорошее теоретическое обоснование Хорошее теоретическое обоснование При имеющейся информации дают наилучшие предсказания релевантности При имеющейся информации дают наилучшие предсказания релевантности Могут быть реализованы аналогично векторным моделям Могут быть реализованы аналогично векторным моделям Недостатки: Недостатки: Требуется информация о релевантности или ее приближенные оценки Требуется информация о релевантности или ее приближенные оценки Структура документа описывается только терминами Структура документа описывается только терминами Оптимальные результаты получаются только в процессе обучения на основе информации о релевантности Оптимальные результаты получаются только в процессе обучения на основе информации о релевантности

Информационная модельИнформационная модель Она базируется на теория информации Шенона: чем выше вероятность появления слова, тем оно менее информативно. Оценивает «шум» термина для некоторой коллекции из n документов: Она базируется на теория информации Шенона: чем выше вероятность появления слова, тем оно менее информативно. Оценивает «шум» термина для некоторой коллекции из n документов: где TOTFREQ k – общая частота термина k в коллекции По Сэлтону (Salton and McGill) SIGNAL k дает не очень хорошие результаты в информационном поиске, т.к. переоценивает концентрацию терминов в небольшом количестве документов коллекции (Salton and McGill, 1983, pp.66,73).

The Term Discrimination Value Оценка строится на оценке «различительной» силы термина: каков вклад термина в то, чтобы два документа можно было различить. Вычисляется AVGSIM - the average document-pair similarity (мера близости 2-х документов с данным термином) и (AV GSIM)k – мера близости 2-х документов, если данный термин будет удален из всех документов. [Salton 1989]: Оценка строится на оценке «различительной» силы термина: каков вклад термина в то, чтобы два документа можно было различить. Вычисляется AVGSIM - the average document-pair similarity (мера близости 2-х документов с данным термином) и (AV GSIM)k – мера близости 2-х документов, если данный термин будет удален из всех документов. [Salton 1989]: Где sim(D it f>k) – коэффициент подобия

The Term Discrimination Value В соответствии с этой оценкой термин имеет высокую «различительную силу», если значение этой оценки положительное: документы становятся менее похожие, если в одном из них содержится термин j. Положительное значение дискриминантного коэффициента обычно дают среднечастотные термины. Высокочастотные термины обычно имеют отрицательный коэффициент. Редкие термины никак не влияют на плотность документов – соответственно значение коэффициента близко к 0. Positive discrimination values are usually associated with certain medium frequency terms that appear neither too rarely nor too frequently in < collection. В соответствии с этой оценкой термин имеет высокую «различительную силу», если значение этой оценки положительное: документы становятся менее похожие, если в одном из них содержится термин j. Положительное значение дискриминантного коэффициента обычно дают среднечастотные термины. Высокочастотные термины обычно имеют отрицательный коэффициент. Редкие термины никак не влияют на плотность документов – соответственно значение коэффициента близко к 0. Positive discrimination values are usually associated with certain medium frequency terms that appear neither too rarely nor too frequently in < collection. Инверсная частота термина: при увеличении количества документов с данным термином вес уменьшается vs. Дискриминационный вес (discrimination value) вначале растет от 0 в положительную сторону с ростом количества документов с этим термином, а потом резко уменьшается, если количество документов, содержащих данный термин, продолжает увеличиваться Инверсная частота термина: при увеличении количества документов с данным термином вес уменьшается vs. Дискриминационный вес (discrimination value) вначале растет от 0 в положительную сторону с ростом количества документов с этим термином, а потом резко уменьшается, если количество документов, содержащих данный термин, продолжает увеличиваться Новый коэффициент: частота термина внутри документа * term-discrimination value Новый коэффициент: частота термина внутри документа * term-discrimination value