Тематический анализ и квазиреферирование текста с использованием сканирующих статистик Гусев В.Д., Мирошниченко Л.А., Саломатина Н.В. Институт математики.

Презентация:



Advertisements
Похожие презентации
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Advertisements

Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Информационный маркетинг Лекция 5 Основы формирования спроса и предложения на рынке ИПУ. Оценка конкурентоспособности ИПУ.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
МЕТОДЫ ЭКСПЕРИМЕНТАЛЬНОЙ ОПТИМИЗАЦИИ. Метод деления отрезка пополам Метод позволяет исключать на каждой итерации в точности половину интервала. Иногда.
Государственное образовательное учреждение высшего профессионального образования «Государственный университет управления» (ГУУ) к.э.н., доц. Панфилова.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
ВЫБОР СИСТЕМЫ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ КЛАССИФИКАЦИИ ТРАНСПОРТНЫХ СРЕДСТВ НА ОСНОВЕ ЭВОЛЮЦИОННОГО ПОИСКА.
Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Транксрипт:

Тематический анализ и квазиреферирование текста с использованием сканирующих статистик Гусев В.Д., Мирошниченко Л.А., Саломатина Н.В. Институт математики СО РАН г. Новосибирск

автоматический анализ текстов (индексирование, реферирование) СУПЕРСИНТАКСИЧЕСКИЕ МЕТОДЫ сегментация текста на субтексты (сверхфразовые единства); выявление в каждом субтексте наиболее информативных слов, словосочетаний или фраз.

Сегментация текста на субтексты производится с использованием показателя связности предложений, образующих субтекст. Таким показателем может служить концентрация лексических повторов в анализируемом фрагменте текста. Аномально высокая концентрация повторов в одном фрагменте текста свидетельствует о его тематическом единстве.

Выделение сверхфразовых единств Формальный критерий Сканирующие статистики Имитационное моделирование Позволяют выявлять аномальные отклонения от равномерности в распределении лексических единиц в тексте и оценивать их значимость

Предполагается, что аномальные сгущения (кластеры) лексических единиц адекватно отражают смысловое содержание соответствующего фрагмента текста, и эти фрагменты трактуются как сверхфразовые единства. Задача о выявлении неравномерностей позиционного распределения словоформ текста сводится к изучению различных схем расстановки точек на линии (каждую точку можно трактовать как место вхождения анализируемой словоформы в текст).

Схемы расстановки точек на линии Пусть произвольный набор точек из единичного интервала (0, 1]. Требуется проверить гипотезу о равномерности ( ) против альтернативы ( ), связанной с отклонением от равномерности: кластеризация сверхравномерное распределение наличие «запретных» областей наличие изолированных точек

Для случая кластеризации эффективное решение основано на использовании сканирующей статистики, фиксирующей максимальное число точек, попавших в интервал длины при всевозможных расположениях этого интервала внутри единичного отрезка. Статистика названа сканирующей, т.к. вычисление ее ведется путем подсчета числа точек, попавших в окно ширины, скользящее вдоль отрезка.

Из алгоритмических соображений используем статистику, фиксирующую интервал, в котором содержится ровно точек ( ). Распределение при получено. Табулирование распределения в широком диапазоне значений и является трудоемким. Для оценки значимости отклонения статистики от значения, постулируемого (равномерность), воспользуемся имитационным моделированием.

Схема выявления позиционных аномалий нормализация словоформ текста и подсчет частоты встречаемости словоформ в нормализованном тексте. отбор словоформ с, где пороговое значение частоты, зависит от длины текста в словоформах. число вхождений в текст, длина минимального фрагмента текста, содержащего вхождений цепочки.

перебор по ( ). Для фиксированного : а) вычисление б) оценка распределения при с помощью имитационного моделирования. Для этого многократно перемешиваем слова в исходном тексте, формируем его рандомизированных аналогов с равномерным распределением слова по тексту ( ). Вычисляем оценки значений статистики Схема выявления позиционных аномалий

сравнение значения с оценками из имитационного эксперимента. Аномальное (неслучайное) отклонение от равномерности типа «кластеризация» имеет место, если: * Значимость выделенного кластера можно характеризовать безразмерной величиной среднее расстояние между вхождениями слова в текст, среднее внутрикластерное расстояние между вхождениями. Схема выявления позиционных аномалий

фильтрация слов, демонстрирующих аномальную кластеризацию с помощью показателя. Кластеры с относительно высоким ( 5 ) обычно содержат не слишком много точек ( ) и характеризуют локальные подтемы или эпизоды в тексте. Более разреженные кластеры с небольшими значениями покрывают значительные фрагменты текста, но характеризуют, скорее, предметную область в целом. Схема выявления позиционных аномалий

Выявленная при фиксированном сильная аномалия не исчезает мгновенно. При увеличении возникает система вложенных или пересекающихся кластеров со все меньшими значениями. Они заменяются одним (максимальным по размеру и числу точек) кластером, удовлетворяющим ограничению. Среднечастотные слова, демонстрирующие позиционные аномалии, обычно характеризуются одним таким кластером. Высокочастотные слова могут иметь два три независимых кластера. Схема выявления позиционных аномалий

Способы формирования квазиреферата построение профиля кластеризуемости лексических единиц в тексте и отслеживание точек изменения значений этой функции; приписывание каждому предложению веса в соответствии с наличием в нем кластерообразующих лексических единиц и отбор для квазиреферата предложений с максимальным весом.

СЕГОДНЯ ДЕНЬ 101 СЕГОДНЯ ДЕНЬ ГОРШОЧЕК 148 ГОРШОЧЕК 149 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ 150 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ 151 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ СОВА 167 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ СОВА 168 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ХОТЕТЬ СОВА 169 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ХОТЕТЬ СОВА 170 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ СОВА 171 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ СОВА 172 ГОРШОЧЕК НАПИСАТЬ СОВА 178 ГОРШОЧЕК НАПИСАТЬ СОВА 179 НАПИСАТЬ СОВА 183 НАПИСАТЬ СОВА 184 НАПИСАТЬ СОВА 195 НАПИСАТЬ СОВА 196 СОВА ПРОФИЛЬ КЛАСТЕРИЗУЕМОСТИ 204 СОВА x y

Учет веса фразы Каждому предложению текста назначается вес равный числу вхождений в него словоформ, демонстрирующих кластеризацию в произвольном месте текста, а не только в том, где расположено данное предложение. Вес предложения фиксирует разнообразие представленных в нем кластеризованных словоформ, а не полное их количество.

Апробация подхода проводилась на полнотекстовых документах разного жанра: научные статьи главы художественных произведений газетные публикации Основная лексической единица – словоформа. Пороги отбора лексических единиц: по частоте, по значению безразмерной величины

Сравнение алгоритмов Реферат по профилю кластеризуемости отличается детальностью и разнообразием учета ключевых слов. Реферат, полученный из предложений с учетом их весов, может иметь любой заданный объем, ограниченный числом фраз или их весом.

Факторы, влияющие на качество квазиреферата разбивка текста на предложения неоднозначность нормализации использование словосочетаний (лексическая функция, лексическая {единица, омонимия}) учет семантических повторов (ЛФ = «лексическая функция») раскрытие анафорических ссылок

Предложенный метод квазиреферирования текста дает вполне сопоставимые результаты с рефератами, построенными другими методами работает с неструктурированными текстами, учитывает позиционную информацию при оценивании значимости той или иной лексической единицы не требует проведения предварительной фильтрации малоинформативных лексических единиц. Большая часть их устраняется автоматически, не пройдя критерий на аномальность.