Тематическое упорядочение текстов при формировании сводных документов Васильев В.Г. OOO «ЛАН_ПРОЕКТ»
2 Технология формирования сводных документов
3 Пример тематического упорядочения ФРАГМЕНТ НЕУПОРЯДОЧЕННОГО СПИСКАФРАГМЕНТ УПОРЯДОЧЕННОГО СПИСКА Более 3,5 тыс. задействованных на вредных производствах жителей Новороссийска …. На реконструкцию рентгенкабинетов Псковской области выделено 6,7 млн рублей В Магнитогорске формируется медико- социальная программа геронтологической … На реконструкцию рентгенкабинетов Псковской области выделено 6,7 млн рублей В Новосибирске будет разработана стратегия развития системы здравоохранения на … 6,7 млн. рублей выделено из областного бюджета на рентген кабинеты Диагностическое оборудование, поступающее в Омскую область в рамках нацпроекта … Бороться с раком помогает национальный проект Здоровье Получено 149 единиц диагностического оборудования Костромская область в 2007 г. в рамках нацпроекта Здоровье получит 43 машины С начала года 31 житель Новороссийска получил высокотехнологичную медпомощь
4 Задача тематического упорядочения текстов
5 Задача коммивояжера
6 Методы решения задачи одномерного размещения элементов
7 Метод на основе иерархического кластерного анализа
8 Метод на основе спектрального анализа (типа PageRank)
9 Модели представления и вычисления близости текстов ОбозначениеОписание модели TFIDFСтандартная теоретико-множественная модель Косинусная мера близости KGRAMMТекст представляется хэш-кодами всех последовательностей слов длины k. Мера включения KGRAMM TFIDF Комбинированная модель и мера близости
10 Тестовые массивы
11 Показатели качества тематического упорядочения
12 Время работы алгоритмов тематического упорядочения
13 Качество тематического упорядочения
14 Заключение Перспективные направления исследований : учет специфики документов различных типов (новости, электронная почта, служебных документы, научные работы); использование других методов для тематического упорядочения (проецирования, нейронные сети); устранения повторяющихся фрагментов в различных текстах из заданного массива.