Поисковые технологии 2010 Лексический анализ: от шаблонов к семантике 26 февраля 2010 г. Даниил Скатов ООО «Диктум» г. Нижний Новгород Яхрома,

Презентация:



Advertisements
Похожие презентации
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Advertisements

Школьная форма Презентация для родительского собрания.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Michael Jackson
Типовые расчёты Растворы
1. Определить последовательность проезда перекрестка
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Разработал: Учитель химии, биологии высшей квалификационной категории Баженов Алексей Анатольевич.
Маршрутный лист «Числа до 100» ? ? ?

Масштаб 1 : 5000 Приложение 1 к решению Совета депутатов города Новосибирска от
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Материалы совета кураторов 30 июня 2011 года. Критерии сложности дисциплин по семестрам Дисциплина является сложной, если в группе более 50% задолжников.
1 Стадион ФИШТ в городе Сочи Стадион ФИШТ в городе Сочи Спортивные объекты к олимпиаде 2014 г. 3.
Поисковые технологии 2010 Яхрома, Синтаксический анализ по-нижегородски Владимир Окатьев к.ф.-м.н., директор ООО «Диктум»
Развивающая викторина для детей "Самый-самый " Муниципальное общеобразовательное учреждение средняя общеобразовательная школа 7 ст. Беломечётской.
В7 ТРИГОНОМЕТРИЧЕСКИЕ ВЫРАЖЕНИЯ ЕГЭ по математике.

Транксрипт:

Поисковые технологии 2010 Лексический анализ: от шаблонов к семантике 26 февраля 2010 г. Даниил Скатов ООО «Диктум» г. Нижний Новгород Яхрома,

Даниил Скатов 26 февраля 2010 г. ООО «Диктум» г. Нижний Новгород

© Dictum Ltd / 46 Объекты… Даниил Скатов 26 февраля 2010 г. ООО «Диктум» г. Нижний Новгород

© Dictum Ltd / 46 Объекты… Даниил Скатов ООО «Диктум» г. Нижний Новгород Персона Имя Фамилия Отчество "Даниил" "Скатов" Ø Организация Название "Диктум" Тип "ООО" Населенный пункт Имя Нижний Новгород Тип Город День Месяц Год февраля 2010 г. Дата

© Dictum Ltd / 46 Объекты… Даниил Скатов ООО «Диктум» г. Нижний Новгород Персона Имя Фамилия Отчество "Даниил" "Скатов" Ø Организация Название "Диктум" Тип "ООО" Населенный пункт Имя Нижний Новгород Тип Город День Месяц Год февраля 2010 г. Дата Скатов Даниил; Скатов Д. Даниил Сергеевич Скатов; Скатов Д.С. Даниил Сергеевич; Скатов Общество с огр. отв-ю «Диктум» компания «Диктум» ; Dictum Ltd Диктум Н. Новгород; НН; столица Поволжья; город Горький Горький; НН; Нижний г. Н. Новгород ; Feb 26, 2010 Двадцать шестое февраля Последняя пятница февраля 2010 года

© Dictum Ltd / 46 Объекты, факты … Сотрудник ( ) посетил конференцию «Поисковые технологии» компании «Диктум» г. Н. НовгородСкатов Даниил

© Dictum Ltd / 46 Должность Объекты, факты … Сотрудник ( ) посетил конференцию «Поисковые технологии» компании «Диктум» г. Н. НовгородСкатов Даниил Даты: 20/03/06, 7 февраля 2007 г., гг. Персоны: Петров И.С., Иван Петров, Иван Сергеевич, Петров И. Адреса Интернет и Географические адреса: Россия, г. Н.Новгород, пр-т Гагарина, 23, корп. 7 Названия организаций: Университет им. Н.И.Лобачевского, КБ «Квазар», Школа 7 Спортивные события: Зимняя олимпиада, Кубок УЕФА, Чемпионат мира по хоккею Числа прописью: две тысячи восемьсот единиц техники Результаты измерений: 8 кг., не более 50 км/ч Денежные единицы: р., ,2 USD Порядковые числительные: 1-ый, 18-ого Номера телефонов: (831) , Номера кредитных карт, ИНН … Факты отношения между объектами Факт посещения

© Dictum Ltd / 46 Объекты, факты и не только Фразы-определения авторских терминов, их синонимов и связанных атрибутов: «Лексический анализ это …» Нормализация слабоструктурированных источников данных: автоматизированное формирование и коррекция номенклатурных списков (имущества, оборудования и т.д.): «Квартира 2-х комнатная 80 кв. м. …» Прошивка законодательства: извлечение инструкций (связанных с обновлением текстов во времени) для их последующего применения: «Часть первую статьи 41 дополнить словами "или его заместителем"» Графематический анализ: выявление в тексте простых лексических конструкций (ФИО с инициалами, электронные адреса, имена файлов), а также предложений, абзацев, заголовков, примечаний Выявление составных слов напр.: для того чтобы

© Dictum Ltd / 46 Лексический анализ Задача: выявить в неразмеченном ЕЯ-тексте лексические конструкции цепочки слов входного текста (возможно, разрывные), каждая из которых снабжается набором данных определенной структуры: имя класса, которому принадлежит конструкция ( Дата ); нормальная форма конструкции, которая состоит из нормализованного текстового представления (удобного для прочтения человеком) и набора именованных полей с присвоенными значениями ( День = 26, Месяц = 2, Год = 2010 ) Базовый механизм для выявления объектов (именованные сущности, как правило, являются непрерывными конструкциями) Вспомогательный механизм для выявления фактов (выявление утверждений разрывных конструкций: «Василий Петров, мечтая о научной карьере, долгое время успешно трудился в НИИ ЧАВО», м. быть установление кореференции объектов, но не логический вывод фактов) Вспомогательный механизм для деления текста на слова (поиск составных слов типа союзов, но не полноценная символьная токенизация японский, арабский, «первыйвторой») Это лексический анализ естественного языка (LANL):

© Dictum Ltd / 46 Лексический анализ

© Dictum Ltd / 46 Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом

© Dictum Ltd / 46 Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом GeographyDate PersonOrganization

© Dictum Ltd / 46 Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом GeographyDate Job PersonOrganization

© Dictum Ltd / 46 Принцип наследования Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом GeographyDate Job PersonOrganization Attendance

© Dictum Ltd / 46 Регулярные выражения as is? Председатель совета директоров ОАО «Газпром нефть» А. Миллер 9 июля 2008 г. посетил г. Нижний Новгород с рабочим визитом GeographyDate Job PersonOrganization Attendance Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое

© Dictum Ltd / 46 Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое 26/02/2010; 85 кг. Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину … Хорошо, но… ?!

© Dictum Ltd / 46 Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова… 26/02/2010; 85 кг. Вчера заместителю управляющего делами президента Российской Федерации Павлу Бородину … Хорошо, но… ?!

© Dictum Ltd / 46 Регулярные выражения as is? Отсутствие механизмов повторного использования уже написанных выражений (наследования): можно лишь подставить одно выражение в другое Отсутствие специфических возможностей: проверка вхождения слов и их цепочек в заданные множества, работа с грамматическими значениями слова… Быстрый рост сложности выражений (для их составителя) Нетривиальная обработка разделителей (переносы строк, пробелы) и их сочетаний Увеличение времени анализа с ростом количества описаний: каждое описание (регулярное выражение) приходится применять к тексту отдельно Машинное обучение? Об этом позже

© Dictum Ltd / 46 История DSTL = Шаблоны + Наследование + Предикаты

© Dictum Ltd / 46 DSTL: простой пример

© Dictum Ltd / 46 Наследование

© Dictum Ltd / 46 Наследование

© Dictum Ltd / 46 Работа с морфологией механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) V механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) V механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией Александра 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед} V механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией Александра 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) 2.Двуместные функции: (1) из первого и второго слова выбираются подмножества S 1 и S 2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v 1,v 2 ) такая, что v 1 S 1, v 2 S 2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_) W {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед} V механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией Александра {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед} 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) 2.Двуместные функции: (1) из первого и второго слова выбираются подмножества S 1 и S 2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v 1,v 2 ) такая, что v 1 S 1, v 2 S 2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_) WV механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Работа с морфологией Александра {«Александр», Сущ, Имя, Муж, Род, Ед} {«Александр», Сущ, Имя, Муж, Вин, Ед} {«Александра», Сущ, Имя, Жен, Им, Ед} 1.Одноместные функции: проверка существования грамматической формы с заданными характеристиками HasGrammarForm (V, PartOfSpeech_, Noun_, Gender_, Masc_) 2.Двуместные функции: (1) из первого и второго слова выбираются подмножества S 1 и S 2 грамматических форм с заданными характеристиками, (2) проверяется, существует ли пара (v 1,v 2 ) такая, что v 1 S 1, v 2 S 2, и обе формы имеют требуемый набор характеристик с попарно совпадающими значениями AreConcordant (Case_, Number_, V, PartOfSpeech_, Noun_, Gender_, Masc_, W, PartOfSpeech_, Noun_, Gender_, Masc_) WV механика {«механик», Сущ, Од, Муж, Род, Ед} {«механик», Сущ, Од, Муж, Вин, Ед} {«механика», Сущ, Неодуш, Жен, Им, Ед}

© Dictum Ltd / 46 Согласование и нормальная форма

© Dictum Ltd / 46 Неоднозначность и конфликты SN { T := SName; C := IsCapitalized (SName) & Length (SName) >= 2; A := { CW := 1 - (IsVoc (SName) & !IsPOS (SName, Surname_));}; }; NP { T := N \. P \.; C := Length (N) = 1 & Length (P) = 1; A := { CW := 1; }; }; Person_1 { T := [SN][NP]; A := {CW := NP.CW + SN.CW; };}; Person_2 { T := [NP][SN]; A := {CW := NP.CW + SN.CW + 0.5;};}; Пушкин А.С. Поэмы Person_1 Person_2 CW=2 CW=1.5 В г. Сочи В.В. Путин Person_2 CW=2.5 Person_1 CW=1.5

© Dictum Ltd / 46 Неоднозначность и конфликты

© Dictum Ltd / 46 Сравнение языков

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Механизм анализа Задача: найти все вхождения образцов из в

© Dictum Ltd / 46 Проблемы и решения Правила, составляемые экспертом, дают лучший результат в сравнении с результатом применения машинного обучения (обучение с учителем, распознавание образов …) Проблема: высокая трудоемкость работы эксперта Машинное обучение: Хорошо применимо для распознавания узких классов (напр., в Named Entities Recognition имена людей популярно у зарубежных исследователей) Позволяет распознать текстовый фрагмент и приписать класс, но не заполнить поля или отразить структуру наследования (следствие трудность разрешения конфликтов) Обучение возможно, не менее трудоемко, чем составление правил, и результат иногда недетерминирован для учителя Неполнота обучающей выборки Возможное решение: возьмем лучшее из обоих подходов

© Dictum Ltd / 46 Проблемы и решения Механизм анализа Результат анализа Обучающая выборка Текст Механизм анализа Результат анализа Правила Текст Машинное обучениеСистема правил

© Dictum Ltd / 46 Проблемы и решения Механизм анализа Результат анализа Правила Текст Набор атрибутов Корпус Механизм анализа не меняется Эксперт формирует набор атрибутов, система выявляет в текстах корпуса устойчивые сочетания

© Dictum Ltd / 46 Использование для поиска Запрос: «февраль 2010» ОбразцыДеньМесяцГод февраль 2010Ø февраля годØØ2010 Feb 6, Вхождения образца из запроса в текст

© Dictum Ltd / 46 Использование для поиска Проблема сравнение объектов сложнее сравнения слов: Частичное совпадение («2 февраля 2010» и «февраль 2010») Частичное несовпадение («февраль 2010» и «февраль 2009») «Семантическая» близость («3 февраля 2010» и «4 февраля 2010» ближе, чем «3 февраля 2010» и «3 февраля 2009») Пусть вместе с базой правил определена функция d(x,y): d(x,y) = 0 для одинаковых объектов d(x,y) = для объектов разных классов Частичное совпадение «лучше» частичного несовпадения Решение степень схожести вместо булевского равенства:

© Dictum Ltd / 46 Контакты Адрес: Россия, Нижний Новгород, Проспект Гагарина 23, корпус 7 Тел (факс): +7 (831) web: