Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемГаля Фалькова
1 Тематический анализ и квазиреферирование текста с использованием сканирующих статистик Гусев В.Д., Мирошниченко Л.А., Саломатина Н.В. Институт математики СО РАН г. Новосибирск
2 автоматический анализ текстов (индексирование, реферирование) СУПЕРСИНТАКСИЧЕСКИЕ МЕТОДЫ сегментация текста на субтексты (сверхфразовые единства); выявление в каждом субтексте наиболее информативных слов, словосочетаний или фраз.
3 Сегментация текста на субтексты производится с использованием показателя связности предложений, образующих субтекст. Таким показателем может служить концентрация лексических повторов в анализируемом фрагменте текста. Аномально высокая концентрация повторов в одном фрагменте текста свидетельствует о его тематическом единстве.
4 Выделение сверхфразовых единств Формальный критерий Сканирующие статистики Имитационное моделирование Позволяют выявлять аномальные отклонения от равномерности в распределении лексических единиц в тексте и оценивать их значимость
5 Предполагается, что аномальные сгущения (кластеры) лексических единиц адекватно отражают смысловое содержание соответствующего фрагмента текста, и эти фрагменты трактуются как сверхфразовые единства. Задача о выявлении неравномерностей позиционного распределения словоформ текста сводится к изучению различных схем расстановки точек на линии (каждую точку можно трактовать как место вхождения анализируемой словоформы в текст).
6 Схемы расстановки точек на линии Пусть произвольный набор точек из единичного интервала (0, 1]. Требуется проверить гипотезу о равномерности ( ) против альтернативы ( ), связанной с отклонением от равномерности: кластеризация сверхравномерное распределение наличие «запретных» областей наличие изолированных точек
7 Для случая кластеризации эффективное решение основано на использовании сканирующей статистики, фиксирующей максимальное число точек, попавших в интервал длины при всевозможных расположениях этого интервала внутри единичного отрезка. Статистика названа сканирующей, т.к. вычисление ее ведется путем подсчета числа точек, попавших в окно ширины, скользящее вдоль отрезка.
8 Из алгоритмических соображений используем статистику, фиксирующую интервал, в котором содержится ровно точек ( ). Распределение при получено. Табулирование распределения в широком диапазоне значений и является трудоемким. Для оценки значимости отклонения статистики от значения, постулируемого (равномерность), воспользуемся имитационным моделированием.
9 Схема выявления позиционных аномалий нормализация словоформ текста и подсчет частоты встречаемости словоформ в нормализованном тексте. отбор словоформ с, где пороговое значение частоты, зависит от длины текста в словоформах. число вхождений в текст, длина минимального фрагмента текста, содержащего вхождений цепочки.
10 перебор по ( ). Для фиксированного : а) вычисление б) оценка распределения при с помощью имитационного моделирования. Для этого многократно перемешиваем слова в исходном тексте, формируем его рандомизированных аналогов с равномерным распределением слова по тексту ( ). Вычисляем оценки значений статистики Схема выявления позиционных аномалий
11 сравнение значения с оценками из имитационного эксперимента. Аномальное (неслучайное) отклонение от равномерности типа «кластеризация» имеет место, если: * Значимость выделенного кластера можно характеризовать безразмерной величиной среднее расстояние между вхождениями слова в текст, среднее внутрикластерное расстояние между вхождениями. Схема выявления позиционных аномалий
12 фильтрация слов, демонстрирующих аномальную кластеризацию с помощью показателя. Кластеры с относительно высоким ( 5 ) обычно содержат не слишком много точек ( ) и характеризуют локальные подтемы или эпизоды в тексте. Более разреженные кластеры с небольшими значениями покрывают значительные фрагменты текста, но характеризуют, скорее, предметную область в целом. Схема выявления позиционных аномалий
13 Выявленная при фиксированном сильная аномалия не исчезает мгновенно. При увеличении возникает система вложенных или пересекающихся кластеров со все меньшими значениями. Они заменяются одним (максимальным по размеру и числу точек) кластером, удовлетворяющим ограничению. Среднечастотные слова, демонстрирующие позиционные аномалии, обычно характеризуются одним таким кластером. Высокочастотные слова могут иметь два три независимых кластера. Схема выявления позиционных аномалий
14 Способы формирования квазиреферата построение профиля кластеризуемости лексических единиц в тексте и отслеживание точек изменения значений этой функции; приписывание каждому предложению веса в соответствии с наличием в нем кластерообразующих лексических единиц и отбор для квазиреферата предложений с максимальным весом.
15 СЕГОДНЯ ДЕНЬ 101 СЕГОДНЯ ДЕНЬ ГОРШОЧЕК 148 ГОРШОЧЕК 149 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ 150 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ 151 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ СОВА 167 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ДЕРЖАТЬ ХОТЕТЬ СОВА 168 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ХОТЕТЬ СОВА 169 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ ХОТЕТЬ СОВА 170 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ СОВА 171 ГОРШОЧЕК ПОПРОСИТЬ НАПИСАТЬ СОВА 172 ГОРШОЧЕК НАПИСАТЬ СОВА 178 ГОРШОЧЕК НАПИСАТЬ СОВА 179 НАПИСАТЬ СОВА 183 НАПИСАТЬ СОВА 184 НАПИСАТЬ СОВА 195 НАПИСАТЬ СОВА 196 СОВА ПРОФИЛЬ КЛАСТЕРИЗУЕМОСТИ 204 СОВА x y
16 Учет веса фразы Каждому предложению текста назначается вес равный числу вхождений в него словоформ, демонстрирующих кластеризацию в произвольном месте текста, а не только в том, где расположено данное предложение. Вес предложения фиксирует разнообразие представленных в нем кластеризованных словоформ, а не полное их количество.
17 Апробация подхода проводилась на полнотекстовых документах разного жанра: научные статьи главы художественных произведений газетные публикации Основная лексической единица – словоформа. Пороги отбора лексических единиц: по частоте, по значению безразмерной величины
18 Сравнение алгоритмов Реферат по профилю кластеризуемости отличается детальностью и разнообразием учета ключевых слов. Реферат, полученный из предложений с учетом их весов, может иметь любой заданный объем, ограниченный числом фраз или их весом.
19 Факторы, влияющие на качество квазиреферата разбивка текста на предложения неоднозначность нормализации использование словосочетаний (лексическая функция, лексическая {единица, омонимия}) учет семантических повторов (ЛФ = «лексическая функция») раскрытие анафорических ссылок
20 Предложенный метод квазиреферирования текста дает вполне сопоставимые результаты с рефератами, построенными другими методами работает с неструктурированными текстами, учитывает позиционную информацию при оценивании значимости той или иной лексической единицы не требует проведения предварительной фильтрации малоинформативных лексических единиц. Большая часть их устраняется автоматически, не пройдя критерий на аномальность.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.