Cергей Ливерко Даниил Скатов Владимир Окатьев Гибридный синтаксический анализ Прикладная лингвистика и искусственный интеллект 2013.

Презентация:



Advertisements
Похожие презентации
Поисковые технологии 2010 Яхрома, Синтаксический анализ по-нижегородски Владимир Окатьев к.ф.-м.н., директор ООО «Диктум»
Advertisements

Устный счет. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА. НАЗОВИТЕ ЧИСЛО, СОСТОЯЩЕЕ ИЗ 1 ДЕСЯТКА И 5 ЕДИНИЦ. НАЗОВИТЕ ЧИСЛО, КОТОРОЕ НА 1 ЕДИНИЦУ БОЛЬШЕ, ЧЕМ.
Найди недостающее слагаемое
ИССЛЕДОВАНИЕ ДЕРЕВА РЕШЕНИЙ В РЕАЛИЗАЦИИ МЕТОДА ВЕТВЕЙ И ГРАНИЦ ДЛЯ РЕШЕНИЯ ЗАДАЧИ КОММИВОЯЖЕРА Ермошин А.С., Плиско В.А. (МГУПИ)
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Применение методов решения задачи удовлетворения ограничениям для построения управляющих конечных автоматов по сценариям работы Владимир Ульянцев Научный.
Вариант Презентация "Осень золотая".
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Имя существительное Самостоятельная часть речи, которая обозначает предмет и отвечает на вопросы кто? что? Бывают собственными или нарицательными, одушевленными.
1 Урок-кроссворд(русский язык 5 класс.) Обобщение и закрепление темы «Синтаксис»
UML МИЭМ, План лабораторной UML Краткий обзор средств моделирования Паттерны проектирования Практическая часть 2.
Тема: «Формы представления алгоритма. Линейный алгоритм»
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Результаты единого государственного экзамена по русскому языку в Магдагачинском районе При анализе использованы аналитические и статистические материалы.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Задача построения расписания конфигураций с ограниченной глубиной узлов для беспроводных сенсорных сетей Евгений Наградов.
Л.Л. Босова, УМК по информатике для 5-7 классов Москва, 2007 СХЕМЫ.
1 3 o 5 Оценка эффективности инвестиций 6 Определение затрат.
1 Этапы разработки компьютерной информационной модели Объект моделирования (реальная система) Системный анализ Теоретическая информационная система Компьютерная.
Транксрипт:

Cергей Ливерко Даниил Скатов Владимир Окатьев Гибридный синтаксический анализ Прикладная лингвистика и искусственный интеллект 2013

ООО «Диктум», / 20 Синтаксический анализ Синтаксический анализ – процесс сопоставления линейной последовательности лексем языка с его формальной грамматикой Результат анализа – дерево синтаксического разбора 2 основных типа грамматик: Грамматика зависимостей Грамматика составляющих

ООО «Диктум», / 20 Грамматика зависимостей Вершинами дерева разбора являются слова, рёбрами – подчинительные связи Связи между словами устанавливаются по правилам грамматики Корневой вершиной считается сказуемое (при его наличии) Предлог управляет существительным Анализ производится по алгоритму Эйснера: 1. Строятся все возможные связи с назначенными им весами 2. Из полученного графа извлекается дерево минимального веса, включающее как можно больше вершин

ООО «Диктум», / 20 Грамматика зависимостей Пример: Я поеду домой на машине

ООО «Диктум», / 20 Грамматика зависимостей Пример: Я поеду домой на машине

ООО «Диктум», / 20 Грамматика зависимостей Преимущества: Приспособлена для языков со свободным порядком слов Дерево зависимостей удобно для семантической интерпретации Недостатки: Необходимо заранее расставить все потенциальные связи между словами – появляется много шума Трудности с учётом пунктуации и ролей запятых – необходимо заранее знать синтаксическую структуру предложения! Трудности с представлением рядов из однородных членов

ООО «Диктум», / 20 Грамматика составляющих Вершинами дерева разбора являются составляющие – группы из нескольких подряд идущих слов, связанных между собою синтаксически Составляющая суть есть словосочетание Каждая составляющая состоит из нескольких (в большинстве работ – из 2) составляющих меньшего размера, определяемых правилами грамматики Корневой вершиной считается составляющая, соответствующая всему предложению Листьями дерева являются слова (элементарные составляющие) Анализ производится по алгоритму свёртки, Кока- Янгера-Касами и подобным

ООО «Диктум», / 20 Грамматика составляющих Пример: Я поеду домой на машине

ООО «Диктум», / 20 Грамматика составляющих Пример: Я поеду домой на машине

ООО «Диктум», / 20 Грамматика составляющих Преимущества: Порождаются только грамматически верные разборы Корректный учёт пунктуации и определение ролей запятых Корректная сборка рядов из однородных членов Недостатки: Многозначность порядка сборки составляющих порождает множество разборов, разных по структуре дерева, но одинаковых по существу В грамматике зависимостей всем им соответствует одно и то же дерево!

ООО «Диктум», / 20 Неоднозначность разбора Пример: Красивая спинка стула

ООО «Диктум», / 20 Гибридный подход Суммируются преимущества двух подходов и устраняются многие недостатки

ООО «Диктум», / 20 Гибридный подход Суммируются преимущества двух подходов и устраняются многие недостатки Алгоритм { }

ООО «Диктум», / 20 Гибридный подход Суммируются преимущества двух подходов и устраняются многие недостатки Алгоритм { }

ООО «Диктум», / 20 Гибридный подход Более точное ранжирование вариантов составляющих за счёт взвешивания деревьев зависимостей Сокращение перебора за счёт отождествления одинаковых вариантов разбора Устраняются недостатки представления результатов каждого из подходов

ООО «Диктум», / 20 Пример простого правила // Хороший телефон AgreeNounFullAdjCF { T: [ComFullAdj] [ComNoun] C: NumberGenderAgree (LI1, LI2) && (LI1. Case == LI2.Case) && CaseAnimAgree (LI1, LI2); Main: 2 L: 2=>Agreement=>1; }

ООО «Диктум», / 20 Пример правила для ряда // Яблоко и груша CoordNounConj { T: [ComNoun] [CoordConj] [ComNoun] C: LI1. Case == LI3.Case; Main: 1 L: 1=>Coord=>3; A: LI.Number = NUMBER_PL; PH.IsCoord = true; }

ООО «Диктум», / 20 Пример правила для обособления // Он шёл по улице, думая о работе IsolAdvPartPost { T: [ComVerb] [AdvPart] ( {,} | {.} | {?} | {!} | ) C: LI1. VerbForm != VERB_FORM_ADV_PART; Main: 1 L: 1=>Contiguity=>2; J: 1

ООО «Диктум», / 20 Пример правила для непроективности // Дорогу должен уступить ControlNonProjectLeft { T: [ComNoun] [Pred] [Inf] C: PredicModel (LI2, LI3) && IsFreeValence (PH2, LI3) && PredicModel (LI3, LI1) && IsFreeValence (PH3, LI1); Main: 2 L: 2=>Control=>3; 3=>Control=>1; A: FillValence (PH, LI3); }

ООО «Диктум», / 20 Сложность алгоритма

ООО «Диктум», / 20 Спасибо за внимание! ООО «Диктум» г. Нижний Новгород