Тематическое упорядочение текстов при формировании сводных документов Васильев В.Г. OOO «ЛАН_ПРОЕКТ» vvg_2000@mail.ru.

Презентация:



Advertisements
Похожие презентации
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Advertisements

ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
Нейронные сети В образовании. + - = Что нам нужно? Массив арифметических операторов. Шаблон для вариантов алгоритма. a + b + c = d a + b - c = d a -
Октябрь 2007 Медийная реклама НОВЫЕ ВОЗМОЖНОСТИ ДЛЯ БИЗНЕСА.
Антомонов Михаил Юрьевич Зав. отделом медицинской информатики, д.б.н., професор ГУ «Институт гигиены и медицинской экологии им. А.Н. Марзеева НАМН Украины»
Вопросы взаимодействия учреждений здравоохранения и Регионального отделения Фонда социального страхования Российской Федерации.
О формировании территориальной программы государственных гарантий на 2013 г. Начальник отдела экономического анализа и формирования сводного бюджета здравоохранения.
Ребёнок – парус в XXI век, а педагог ему – попутный ветер Департамент образования и науки Краснодарского края Дошкольное образование Кубани.
- облачный сервис для автоматической интерпретации результатов генетических анализов и формирования заключения - облачный сервис для автоматической интерпретации.
Комитет по образованию администрации МО Ломоносовский муниципальный район Конференция работников системы образования и родительской общественности 1 февраля.
Здравоохранение Бавлинского муниципального района Главный врач А.З.Галимов.
«Создание информационной системы, обеспечивающей разработку типологии субъектов Российской Федерации для целей проведения образовательной политики с учетом.
Компьютерная лингвистика Отдел мультиагентных систем ИИПРУ КБНЦ РАН.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Проект «Научный архив» декабрь 2014 – декабрь 2016.
Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
1 Томск. Межведомственный научно-образовательный центр СТАТИСТИКА ИННОВАЦИЙ. Формирование информационно-аналитической базы для обеспечения развития экономики.
Анализ деятельности российской автомобильной промышленности в начале 2008 года ОАО «АСМ-холдинг» При использовании указанных материалов в публикациях.
Москва Семантическая обработка данных в программно-аппаратном комплексе (ПАК), предназначенном для управления предприятиями и отраслями.
Транксрипт:

Тематическое упорядочение текстов при формировании сводных документов Васильев В.Г. OOO «ЛАН_ПРОЕКТ»

2 Технология формирования сводных документов

3 Пример тематического упорядочения ФРАГМЕНТ НЕУПОРЯДОЧЕННОГО СПИСКАФРАГМЕНТ УПОРЯДОЧЕННОГО СПИСКА Более 3,5 тыс. задействованных на вредных производствах жителей Новороссийска …. На реконструкцию рентгенкабинетов Псковской области выделено 6,7 млн рублей В Магнитогорске формируется медико- социальная программа геронтологической … На реконструкцию рентгенкабинетов Псковской области выделено 6,7 млн рублей В Новосибирске будет разработана стратегия развития системы здравоохранения на … 6,7 млн. рублей выделено из областного бюджета на рентген кабинеты Диагностическое оборудование, поступающее в Омскую область в рамках нацпроекта … Бороться с раком помогает национальный проект Здоровье Получено 149 единиц диагностического оборудования Костромская область в 2007 г. в рамках нацпроекта Здоровье получит 43 машины С начала года 31 житель Новороссийска получил высокотехнологичную медпомощь

4 Задача тематического упорядочения текстов

5 Задача коммивояжера

6 Методы решения задачи одномерного размещения элементов

7 Метод на основе иерархического кластерного анализа

8 Метод на основе спектрального анализа (типа PageRank)

9 Модели представления и вычисления близости текстов ОбозначениеОписание модели TFIDFСтандартная теоретико-множественная модель Косинусная мера близости KGRAMMТекст представляется хэш-кодами всех последовательностей слов длины k. Мера включения KGRAMM TFIDF Комбинированная модель и мера близости

10 Тестовые массивы

11 Показатели качества тематического упорядочения

12 Время работы алгоритмов тематического упорядочения

13 Качество тематического упорядочения

14 Заключение Перспективные направления исследований : учет специфики документов различных типов (новости, электронная почта, служебных документы, научные работы); использование других методов для тематического упорядочения (проецирования, нейронные сети); устранения повторяющихся фрагментов в различных текстах из заданного массива.