1 Технология извлечения структурированной информации из неструктурированного текстового массива Яндекс.Новости: пресс-портреты, цитаты в новостях, карта.

Презентация:



Advertisements
Похожие презентации
1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
Advertisements

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Типовые расчёты Растворы

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
Маршрутный лист «Числа до 100» ? ? ?
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
О СИТУАЦИИ НА РЫНКЕ ТРУДА И РЕАЛИЗАЦИИ РЕГИОНАЛЬНЫХ ПРОГРАММ ПО СНИЖЕНИЮ НАПРЯЖЕННОСТИ НА РЫНКЕ ТРУДА СУБЪЕКТОВ СЕВЕРО-КАВКАЗСКОГО ФЕДЕРАЛЬНОГО ОКРУГА.
Итоги диагностической работы 1 по русскому языку (15 октября 2009 год) Участвовало1950 классов.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Школьная форма Презентация для родительского собрания.
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Киев, 11 мая 2013 г. Семинар «Интернет-маркетинг за рубежом» Доброновский Роман, Руководитель отдела продвижения зарубежных проектов компании «Promodo»
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.

1 Линейные пространства Базис линейного пространства Подпространства линейного пространства Линейные операторы Собственные векторы и собственные значения.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Практическое занятие МППСС -72 Правила маневрирования судов, находящихся на виду друг у друга Практическое занятие тестирование МППСС -72 Правила маневрирования.
Транксрипт:

1 Технология извлечения структурированной информации из неструктурированного текстового массива Яндекс.Новости: пресс-портреты, цитаты в новостях, карта сюжета Лев Гершензон, Яндекс

2 План Подходы к извлечению структурированной информации из текста Этапы анализа текста и обработка данных Приложения в Яндекс.Новости

3 Структурированная информация Множество типизированных объектов, связанных содержательными, экстралингвистическими отношениями.

4 Структурированная информация. Объекты и отношения Атомарные объекты фио, дата, число, именованная сущность Сложные объекты компания = + кафе «Азия», нефтяная компания ЮКОС число + ед. изм. Отношения быть родственником (фио - фио) Мария Гайдар – старшая дочь Егора Гайдара работать в \ быть сотрудником (фио - компания) гендиректор АНО «Восход» И.Иванов владеть (фио – компания, компания - компания) Основным акционером Банка Москвы является московская мэрия иметь длину / цену / размер «Коммерсантъ» стоит $200 млн

5 Два подхода к извлечению фактов Извлекается вся лингвистическая информация (синтаксис, анафорические связи), а затем на ее основе извлекаются факты. Ищутся ключевые слова, которые наращиваются в тексте с помощью лингвистических правил до цепочки, описывающей факт.

6 Этапы анализа текста и обработка данных Графематика деление текста на абзацы, предложения и слова Морфологический анализ определение словарной формы и грамматической информации Выделение атомарных объектов обозначения ФИО, дат и чисел Выделение неразрывных цепочек, обозначающих объекты и их связи Выделение фактов, выраженных предикативными конструкциями (шаблоны ситуаций) Создание базы фактов отождествление различных выражений одного объекта или факта, выбор лучшего представителя

7 Графематика. Трудности Неочевидный конец предложения Словарь сокращений, разные виды сокращений, анализ правого контекста Непростые слова числобуквенные комплексы, слова со знаками препинания

8 Морфологический анализ Словарная морфология каждой словоформе приписываются все возможные леммы и наборы граммем Модуль предсказания для несловарных слов предсказываются леммы и возможная грамматическая информация

9 Атомарные объекты Числа (...4,9 млн рублей..., тысяч 980 жителей..., литров...) Даты (... состоятся 5 и 10 ноября 2000 г...,... лишь в июле 2002 г...) ФИО (... ведет Василий Черный...,...А. П. Чехов...)

10 Атомарные объекты. Даты и числа Выделение словарных, число-словарных и числовых обозначений два с половиной миллиона, 2,5 млн, Нормализация. Приведение выделенных объектов к стандартному числовому виду

11 Атомарные объекты. Выделение ФИО пометы в морфологическом словаре для обозначения имен, отчеств и фамилий наличие словарной фамилии необязательно отождествление по тексту формально различных ФИО разрешение родовой омонимии для имен Александра, Валерия

12 Компоненты модуля анализа Выделение цепочек По словам замдиректора компании «Транс Софт» Антона Петрова.... Интерпретация участников по ролям Нормализация ФИОДолжность Организация Антона Петровазамдиректора«Транс Софт» ФИОДолжность Организация Антон Петровзаместитель директора Транс Софт

13 Выделение неразрывных цепочек. Пример с фактами фио-должность- организация (ФДО) Выделение ключевых слов («управляющий директор», «контора», «месторождение») Описание синтаксических конструкций, вершинами которых являются ключевые слова ( группа должности: группа прил_сущ, где главное слово «директор» ) Описание взаимного расположения и согласования таких синтаксических групп (ФДО: (группа ФИО) + «,» + (группа должности ) + (группа компании ) + «,» )

14 Инструменты анализа Словарь ключевых слов (слова и словосочетания, характерные для выделяемых фактов) Язык Тома (язык описания синтаксической структуры выделяемых фактов) Шаблоны предикативных структур (язык описания грамматических признаков, лексического состава и взаимного расположения актантов и вершины клаузы)

15 Словарь. Пример словарной статьи ЗГЛ= пред_комп_прил_сущ { СОСТАВ= (приемный комиссия|экзаменационный комиссия|дочерний предприятие|экспертный группа|рабочий группа) ГС = 2 СОГЛ = род_число_падеж(1,2) ТИП_КС = sub_company }

16 Язык Тома В основу парсера положен алгоритм Томиты (GLR- grammar, бесконтекстная грамматика ) Терминалы: –одиночные слова предложения –объекты типа фио, дата, число –словосочетания из словаря ключевых слов – цепочки, распознанные другими грамматиками Проверка согласования и приписывание вершины в правых частях правил Порождение всех возможных вариантов синтаксического разбора распознаваемой цепочки и выбор лучшего Возможность задания соответствия нетерминала полю выделяемого факта.

17 Связь Томы и словаря ключевых слов Словарь предоставляет общий интерфейс для поиска неразрывных словосочетаний. Каждая статья описывает определенное множество цепочек и указывает способ выделения таких цепочек. Два основных способа выделения цепочек: –явное указание слов или словосочетаний –правила на языке Тома Возможность отсылки из правил грамматики на статью.

18 Язык Тома. Примеры правил ROrderFdoP -> FIO (ChainInBracket) Break FdoNonT (ChainInBracket) PunctE; FIO – группа ФИО ChainInBracket – последовательность слов в скобках FdoNonT – цепочка + PunctE – знак препинания rt – главное слово группы nc-agr – согласование по числу и падежу FdoNonT -> PostP ![nc-agr] CompanyP; PostP – группа должности CompanyP – группа организации

19 Язык Тома – выделение цепочки ФДО

20 Интерпретация Описание факта –поля и их типы –значения по умолчанию –обязательность полей Задание соответствия нетерминала грамматики некоторому полю выделяемого факта.

21 Интерпретация. Описание факта fact_type Fdo { fio Fio; text Post [info]; text CompanyName [h-reg1]; ~date TextDate; ~text Type = "Fdo"; } Fio, Post – название поля text, date – тип данных ~ - необязательное поле

22 Интерпретация. Пример правила PostP_ -> NPAdjConj * PostNonT (ChainBetween) (PostDescr) ; PostP -> PostP_ interp (Fdo.Post); NPAdjConj – группа прилагательных PostNonT - группа + с главным словом из списка должностей PostDescr – предложная группа, относящаяся к должности (по маркетингу, в странах СНГ) gnc-agr – согласование по роду, числу и падежу

23 Нормализация Морфологическая нормализация: порождение для главного слова его нормальной формы и нормализация зависимых от него слов Нормализация с помощью словаря: –республика Саха Якутия –замгендиректора заместитель генерального директора Нормализация с помощью информации, полученной из самого документа: –ТНК Тюменская Нефтяная Компания –А. Петров Александр Васильевич Петров

24 Шаблоны для ситуаций Используют результаты фрагментационного анализа: –дерево построенных фрагментов –синтаксические связи между подлежащим и сказуемым, причастием и определяемым существительным Работают внутри одной клаузы Приписываются вершинам клауз Актантами являются цепочки, распознанные специальными грамматиками

25 Ситуации. Пример статьи ЗГЛ = _родился { СОСТАВ = родиться ЧР = г ТИП_КС = death_born_sit УПР1 = ВАЛ_ФИО (( ТИП_КС = fio_chain СОГЛ = подл_глаг ) | ( ТИП_КС = fio СОГЛ = подл_глаг ) | ( СОСТАВ = который АНТ:ТИП_КС = fio СОГЛ = подл_глаг СИН_О = подл_им ) interp( FioBirthDeath.Fio;)) ВАЛ_ДАТА( ( ТИП_КС = date_chain ) interp( FioBirthDeath.TextDate;FioBirthDeath.WasBorn = true;) ) ВАЛ_ГЕО( ( ТИП_КС = geo ПРЕФИКС:СОСТАВ = (в|во|на|около) МИ = пр МОД = возможно ) interp( FioBirthDeath.Geo; ) ) ПОРЯДОК ( (СЛЕД(ВАЛ_ФИО Х ВАЛ_ДАТА ВАЛ_ГЕО)) | (СЛЕД(ВАЛ_ФИО Х ВАЛ_ГЕО ВАЛ_ДАТА))| (СЛЕД(ВАЛ_ДАТА Х ВАЛ_ФИО ))) }

26 База фактов. Отождествление объектов и фактов Определить, являются ли два факта тождественными Глава МЭРТа Герман Греф Министр экономического развития Г. Греф Определить, относятся ли два факта к физически одному объекту или это два разных одноименных объекта

27 База фактов. Отождествление объектов. Названия организаций Совпадение с точностью до морфологии Новое Время – Нового Времени Нечеткое сравнение строк (аналог кворума) Министерство экономического развития и торговли - Министерство экономического развития Совпадение с точностью до опечаток Минэкономразвития - Минэконоразвитие Транслитерация Яндекс - Yandex Полное и сокращенное название Объединенные машиностроительные заводы - ОМЗ

28 Приложения в Яндекс.Новости Пресс-портреты Сюжет в лицах Цитаты в новостях Карта сюжета

29 Пресс-портрет

30 Пресс-портрет. Результаты поиска

31 Цитаты в новостях

32 Цитаты в новостях. Результаты поиска

33 Цитаты в новостях. База цитат Выделение цитат в тексте Отождествление разных упоминаний одной цитаты Выбор лучшего представителя цитаты Отождествление авторов цитат (все цитаты одного человека). Связь автора с пресс-портретом

34 Выделение цитат в тексте Косвенная речь. Результаты фрагментационного анализа. придаточные предложения Иванов заявил, что … вводные обороты по словам Иванова, … Прямая речь. Специальный алгоритм, который может брать несколько предложений и искать закрывающие кавычки

35 Отождествление упоминаний одной цитаты Тождество определяется по шинглам Шинглы взвешиваются по частотности входящих в них слов Учитывается близость дат высказываний

36 Карта сюжета

37 Карта сюжета Выделение цепочек с адресом из всех документов сюжета Кластеризация тождественных и вкладывающихся адресов Выбор лучшего представителя по полноте и частоте Определение города Составление запроса к Я.Картам – валидация адреса – и получение ссылки на карту Проставление ссылок на все карты из блока аннотации