Итерационное извлечение шаблонов описания событий по новостным кластерам Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна.

Презентация:



Advertisements
Похожие презентации
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
Advertisements

На фоне безрадостных сообщений, связанных с падением цен на нефть, снижением курса рубля и ростом показателей инфляции, приятная для российского правительства.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
Последствия и вызовы для Беларуси вследствие новых ценовых условий Елена Ракова, к.э.н., экономист Исследовательского центра ИПМ.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
РЕЗУЛЬТАТЫ МОНИТОРИНГА ОФИЦИАЛЬНЫХ САЙТОВ ФЕДЕРАЛЬНЫХ ОРГАНОВ ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ 2012 Фонд Свободы Информации (ранее известный как Институт Развития.
План деятельности Федеральной миграционной службы на годы.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
1 Лекция 6 Команды категории извлечения данных языка структурированных запросов SQL План лекции Выборка определенных столбцов таблицы Устранение избыточных.
* умения, лежащие в основе читательской компетенции (чтение и понимание письменных текстов); * умения по работе с информацией (понимание информации, представленной.
Руководитель : доцент, кандидат экономических наук Грек Наталья Георгиевна.
Сравнение и подгонка поверхностей при решении прикладных задач анализа 3d портретов человеческих лиц Дышкант Наталья Федоровна
Ukrainian Union of Lessors ПРОБЛЕМНЫЕ АСПЕКТЫ ВЕДЕНИЯ ЛИЗИНГОВОЙ ДЕЯТЕЛЬНОСТИ анализ ассоциации Украинское объединение лизингодателей Вадим НЕСТЕРЧУК Глава.
МЕРЫ ПОДДЕРЖКИ ФОНДА РАЗВИТИЯ МОНОГОРОДОВ Февраль 2016, Москва Фонд развития моногородов.
Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013.
Scul32.ucoz.ru Вычитание с переходом через разряд (вида 53-6) 2 класс Подготовила: Бобкова Наталья Николаевна, МОУ лицей 7 г. Волгограда выход.
Язык QBE Язык QBE -общая характеристика Табличный двумерный язык, основанный на реляционном исчислении. Декларативный язык. Язык четвертого поколения (4.
Транксрипт:

Итерационное извлечение шаблонов описания событий по новостным кластерам Котельников Дмитрий Сергеевич МГУ им. М.В. Ломоносова Лукашевич Наталья Валентиновна НИВЦ МГУ им. М.В. Ломоносова

План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Извлечение информации из текста Выделение из текста на естественном языке структурированной информации «МВФ предоставит Белоруссии кредит на сумму $2,46 млрд» – Кредитор: МВФ – Получатель: Белоруссия – Сумма: $2,46 млрд

Подходы к созданию систем Системы основанные на знаниях («инженерный подход») – Правила выделения фактов из текста составляются человеком вручную – Высокая трудоемкость создания – Сложность адаптации к извлечению новых фактов Автоматически обучающиеся системы – Правила выделения событий формируются автоматически – Необходимость создания размеченной коллекции

Итерационный метод S. Brin Extracting Patterns and Relations from the World Wide Web Обучение начинается с небольшого количества размеченных примеров First Men in the Moon by H. G. Wells ( title by author ( Извлечение шаблонов Извлечение фактов

Постановка задачи Разработать способ автоматического формирования шаблонов для системы извлечения информации из текста. Проверить качество работы системы при обучении на небольшом количестве размеченных примеров Новостные кластеры источник разнообразных описаний событий

План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Извлечение сущностей Виды извлекаемых сущностей: – обозначения даты или времени: «5 августа 2006 года» « » – числовые выражения: «5,5 миллиардов долларов» «пятьдесят процентов» – именованные объекты: «Международный валютный фонд» «В.В. Путин»

Извлечение сущностей Для выделения именованных сущностей использовался упрощенный алгоритм Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол

Извлечение сущностей Анализ совместной встречаемости сущностей в предложениях: – Россия готова участвовать в кредите ЕС Киеву на энергоцели - заявил Путин; – В ответ на жесткую позицию России, которая заявила, что не будет выполнять подписанный Киевом протокол по транзиту газа из-за внесенных в него оговорок, ЕС и Украина говорят, что согласны рассмотреть претензии Москвы»

Поиск синонимичных сущностей Один объект может описываться различными выражениями: – «МВФ» – «Международный валютный фонд» – «Совет директоров МВФ» – «Исполнительный совет Международного валютного фонда»

Поиск синонимичных сущностей Совпадение контекстов употребления слова: – Заместитель главы Газпрома Александр Медведев заявил, что поставки российского газа в Евросоюз через территорию Украины могут быть возобновлены. – Поставки российского газа в Европу через территорию Украины могут быть возобновлены.

Поиск синонимичных сущностей Контексты через глагол: – Президент Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия. – Президент России Дмитрий Медведев поручил правительству Российской Федерации не выполнять протокол до тех пор, пока в нем не будут сняты противоречия.

План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Исходные данные Новостной кластер на заданную тему, в котором указаны все участники события: – Покупатель: «Microsoft» – Товар: «Yahoo» – Сумма: «44,6 млрд»

Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Извлечение шаблонов Применение шаблонов

Метод формирования шаблонов 1.«Microsoft намерена купить Yahoo за 44,6 млрд долларов» 2.«Компания Microsoft собирается приобрести поисковую систему Yahoo за 44,6 миллиардов долларов»

Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Извлечение шаблонов Применение шаблонов

Значимые слова Присутствие некоторых слов в предложении может указывать на наличие в нем извлекаемого события «МВФ предоставил Белоруссии кредит на $2,46 млрд» «МВФ дал Белоруссии $2,46 млрд»

Извлечение шаблонов Выделяется непустая подстрока лемм между двумя различными слотами Шаблон должен обязательно содержать глагол и значимое слово: – «Microsoft намерена купить Yahoo за 44,6 млрд долларов» – [Entity:Buyer:[Им]] НАМЕРИТЬ {КУПИТЬ} [Entity: Goods:[Дт]] ЗА [Number:Amount]

Метод формирования шаблонов Известные факты Поиск сущностей в предложениях кластера Извлечение шаблонов Применение шаблонов

План Задача извлечения информации из текста Извлечение сущностей Итерационное извлечение шаблонов описания событий Оценка предложенного подхода и результаты

Эксперименты Была размечена коллекция из 84 новостных кластеров. Пример разметки: – Кредитор : МВФ ; Совет директоров МВФ ; совета директоров Международного валютного фонда ; Международный валютный фонд ; Исполнительный совет директоров МВФ ; СД МВФ – Сумма : 2, 5 миллиардов долларов ; 2, 46 млрд долл ; – Получатель : Минск ; Белоруссии ; Беларуси ; власти Белоруссии

Эксперименты Результаты перекрестной проверки при разделении на 4 части: ТочностьПолнотаF-мера 10,970,410,57 20,950,550,69 30,980,350,51 40,920,710,8 Среднее0,950,50,65

Эксперименты Сравнение с системой, основанной на инженерном подходе для факта получения кредита ШаблоновТочностьПолнотаF-мера 11210,070, ,970,340, ,940,650, ,940,650, ,940,650,78 ИП200,950,240,38

Примеры шаблонов [Entity:Creditor:[Им]] [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} [Entity:Creditor:[Вн, Им]] [Entity:Debtor:[Им, Рд]] {КРЕДИТ} [Entity:Debtor:[Им]] {КРЕДИТ} НА [Number:Amount] [Entity:Creditor:[Им]] [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} В [Number:Amount]

Примеры значимых слов КредитПокупка КРЕДИТ АВТОКРЕДИТ БРИДЖ-КРЕДИТ ГОСКРЕДИТ МИКРОКРЕДИТ СТАБКРЕДИТ ТРАНШ ЭКСПРЕСС-КРЕДИТ КУПИТЬ ВЫКУПИТЬ ДОКУПИТЬ ЗАКУПИТЬ НАКУПИТЬ НАПОКУПАТЬ ПЕРЕКУПИТЬ ПОКУПАТЬ Всего 19 слов

Результаты Разработан метод итерационного извлечения шаблонов для системы извлечения информации из текста, основанный на нахождении в новостном кластере несколько близких по содержанию предложений. Проведены эксперименты, которые показали применимость системы для формирования шаблонов на небольшом количестве размеченных примеров