Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Теория экономических информационных систем Семантические модели данных.
КЛАССИФИКАЦИЯ ГРАММАТИК И ЯЗЫКОВ ( КЛАССИФИКАЦИЯ ХОМСКОГО ) Рейн Т. С.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
Теоретические основы технологии управления проектами Авторы: Митрофанов В.Р.
СПЕЦИАЛИЗИРОВАННАЯ ИНСТРУМЕНТАЛЬНАЯ ОБОЛОЧКА ДЛЯ АВТОМАТИЗАЦИИ СОЗДАНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ САПР С ДИФФЕРЕНЦИРОВАННЫМ ПОДХОДОМ К КВАЛИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Даталогическое проектирование. 1. Представление концептуальной модели средствами модели данных СУБД Общие представления о моделях данных СУБД С одной.
ФУНКЦИОНАЛЬНЫЙ АНАЛИЗ Составила: М.П. Филиппова доцент кафедры высшей математики ИМИ СВФУ.
Введение в формальные (аксиоматические) системы. Формальные системы - это системы операций над объектами, понимаемыми как последовательность символов.
Семантическая сеть. Данная модель представления знаний была предложена американским психологом Куиллианом.
Учебная дисциплина «Базы данных» для студентов специальности Бизнес-информатика (бакалавриат) ЛЕКЦИЯ 3 ВВЕДЕНИЕ В РЕЛЯЦИОННУЮ МОДЕЛЬ ДАННЫХ Вопрос.
Стандарт IDEF1X Рассмотрим методологию IDEF1X. Методология IDEF1X представляет собой формализованный язык семантического (контекстного) моделирования данных,
Данная работа подготовлена для учителей математики и информатики. Имеет цель ознакомления учащихся на уроках и факультативных занятиях. Автор: учитель.
Структурирование данных Типы структур. 2 Структурная модель – представление информационной знаковой системы в виде структуры Структура данных упорядочивает.
Определение числовой функции. Определение 1 Если даны числовое множество Х и правило f, позволяющее поставить в соответствие каждому элементу х из множества.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться?

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение Как формально интерпретировать? ? ?

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму Зависит от : 1 Мамамыла 2 3 рамумыла Второй вариант формального метаязыка:

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама Зависит от : 1 Мамамыла 2 3 рамумыла Второй вариант формального метаязыка: Структура зависимостей мылараму

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? мыла Мама раму Зависит от : 1 Мамамыла 2 3 рамумыла Второй вариант формального метаязыка: Структура зависимостей =дерево подчинения

СТРУКТУРА ЗАВИСИМОСТЕЙ неформальное определение Синтаксическая зависимость = синтаксическая связь: бинарное иерархическое (формально: антисимметричное) отношение между отдельными элементами (словами в предложении); антитранзитивное отношение, хотя можно говорить об опосредованном подчинении; связность полной структуры предложения. Дажемаленькиедетибыстроприучаютсяигратьнакомпьютере

ДЕРЕВЬЯ ПОДЧИНЕНИЯ (почти) формальное определение Предложение рассматривается как конечное множество (элемент множества - словоупотребление). Всякое дерево, для которого данное предложение служит множеством узлов, называется деревом (синтаксического) подчинения для данного предложения. приучаются детибыстроиграть маленькиена дажекомпьютере

ДЕРЕВЬЯ ПОДЧИНЕНИЯ: ПРОЕКТИВНОСТЬ Чтобы установить проективность или непроективность дерева синтаксического подчинения, нужно расположить все стрелки зависимостей по одну сторону от прямой, на которой записано предложение. Дерево проективно, если: а) ни одна из стрелок не пересекает другую стрелку и б) никакая стрелка не накрывает вершину (корень) Дажемаленькиедетибыстроприучаютсяигратьнакомпьютере

ДЕРЕВЬЯ ПОДЧИНЕНИЯ: Слабая ПРОЕКТИВНОСТЬ Чтобы установить проективность или непроективность дерева синтаксического подчинения, нужно расположить все стрелки зависимостей по одну сторону от прямой, на которой записано предложение. Дерево слабопроективно, если ни одна из стрелок не пересекает другую стрелку. (допускается накрывание стрелкой вершины) Пример дерева слабопроективного, но не проективного в сильном смысле: Кубоквсемечтаютвыиграть

ДЕРЕВЬЯ ПОДЧИНЕНИЯ: НЕПРОЕКТИВНОСТЬ Пример дерева, не являющегося проективным ни в сильном, ни в слабом смысле: Кубоквсевыигратьмечтают

Из истории ДЕРЕВЬЕВ ПОДЧИНЕНИЯ в синтаксисе а) грамматика Л.Теньера б) модели, реализующие традиционную грамматику (напр., по А.М.Пешковскому) в) максимально формализованные грамматики зависимостей, например, «Смысл Текст» Все они предполагают классификацию синтаксических зависимостей (связей) разметку дерева.

ГРАММАТИКИ ДЛЯ СТРУКТУР ПОДЧИНЕНИЯ В модели Х.Гайфмана (1965) грамматика зависимостей – это пятерка V, W, K, I, R, где V – множество слов W – множество категорий K – отображение V на W (каждому слову соответствует хотя бы одна категория) I – множество вершинных категорий, являющееся подмножеством W R – множество правил вида a(b 1,…,b m,*,c 1,…,c n ), где a, b 1,…, b m, c 1,…, c n V, а * - специальный символ.

ГРАММАТИКИ ДЛЯ СТРУКТУР ПОДЧИНЕНИЯ Пример грамматики зависимостей: V = {the, a, John, student, book, is, sleeping, reading} W = {DArt, IArt, NPr, NCm, Cop, IngItr, IngTr} K = ((the,DArt), (a,IArt), (John,NPr), (student,NCm), (book,NCm), (is,Cop), (sleeping,IngItr), (reading,IngTr)) I = {Cop} R = Cop (NPr * NCm)NCm (DArt *) Cop (NCm * IngItr)IngItr (*) Cop (NCm * IngTr)IngTr (* NCm) NPr (*)IArt (*) NCm (IArt *)DArt (*)

РАЗМЕЧЕННЫЕ ДЕРЕВЬЯ ПОДЧИНЕНИЯ: мотивировка В дереве подчинения ниже все синтаксические связи имеют различную природу. Классификация связей могла бы использоваться в описании правил, по которым слова (словоформы) языка соединяются в правильно построенные предложения. ( даже, маленькие ) – ограничит. ( играть, приучаются ) – 2-е комплетив. ( маленькие, дети ) – атрибутив. ( на, играть ) – 1-е комплетив. ( дети, приучаются ) – предикатив. ( компьютере, на ) – отпредложное ( быстро, приучаются ) – обстоят. Дажемаленькиедетибыстроприучаютсяигратьнакомпьютере

РАЗМЕЧЕННЫЕ ДЕРЕВЬЯ ПОДЧИНЕНИЯ формальное определение Размеченное дерево подчинения на конечном линейно упорядоченном множестве S – упорядоченная четверка, где R – отношение, которым задается дерево подчинения для S, W – множество меток (список типов отношений, введенных в данной номенклатуре), φ – отображение множества дуг дерева в множество W (список пар «дуга дерева, обозначающая наличие связи между двумя словами + метка, приписанная данной связи (ее тип)»).

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. Рассмотрели два варианта формального метаязыка для записи знаний о синтаксической структуре. Какой лучше?

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: достоинства и недостатки СТРУКТУРЫ СОСТАВЛЯЮЩИХДЕРЕВЬЯ ПОДЧИНЕНИЯ Не позволяют изображать непроективные структуры и разрывные словосочетания Непроективные структуры вполне поддаются описанию в рамках базового формализма Не содержат информации об относительной иерархии составляющих одного уровня Позволяют ввести понятие фразовой категории, относительно независимое от наполнения Не могут выразить иерархию разноуровневых единиц, невозможно ввести единицы большие, чем слово Не могут адекватно выразить сочинительные отношения Не позволяют выразить двойное подчинение

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Поиск метаязыка для описания синтаксических структур Как соединить сильные стороны двух рассмотренных метаязыков? Объединено в группу вместе с: Зависит от : 1 Мама ( мыла + раму ) мыла 2 раму 3 рамумыла Мамамылараму

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: УСТАНОВЛЕНИЕ СООТВЕТСТВИЙ Соответствия могут быть установлены между любыми структурами составляющих и проективными (только!) деревьями подчинения Без дополнительной информации однозначные соответствия от одного типа структур к другому установить невозможно (всегда есть более одного варианта соответствия)

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: УСТАНОВЛЕНИЕ СООТВЕТСТВИЙ Чтобы сделать соответствие однозначным, дополнительная информация для структур составляющих принимает форму иерархизации: Для всякой иерархизированной системы составляющих существует единственное связанное с ней дерево подчинения

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: УСТАНОВЛЕНИЕ СООТВЕТСТВИЙ Чтобы сделать соответствие однозначным, дополнительная информация для деревьев подчинения (проективных!) принимает форму индексации. Для всякого индексированного (проективного) дерева подчинения существует единственная связанная с ней система составляющих.

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Поиск метаязыка для описания синтаксических структур Как соединить сильные стороны двух рассмотренных метаязыков? Объединено в группу вместе с: Зависит от : 1 Мама ( мыла + раму ) мыла 2 раму 3 рамумыла Мамамылараму

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Поиск метаязыка для описания синтаксических структур Как соединить сильные стороны двух рассмотренных метаязыков? Объединено в группу вместе с: Зависит от : 1 Мама ( мыла + раму ) мыла 2 раму 3 рамумыла Мамамылараму

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Поиск метаязыка для описания синтаксических структур Соединяя сильные стороны двух метаязыков, могли бы приблизиться к метаязыку традиционного описания Объединено в группу вместе с: Зависит от : 1 Мама ( мыла + раму ) мыла 2 раму 3 рамумыла Мамамылараму

ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Поиск метаязыка для описания синтаксических структур Соединяя сильные стороны двух метаязыков, могли бы приблизиться к метаязыку традиционного описания 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение Мамамылараму

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: ГИБРИДНЫЕ СТРУКТУРЫ Гладкий 1985: синтаксические группы Неформальное определение: множество слов, которое вступает в отношение зависимости «целиком», а не посредством одного из входящих в него слов.

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: ГИБРИДНЫЕ СТРУКТУРЫ Сложная и многоступенчатая процедура «отсеивания кандидатов» в синтаксические группы (по А.В.Гладкому). В результате: итоговое множество синтаксических групп включает в себя не все составляющие и не только составляющие (например, синт. гр., в отличие от составляющих, могут быть разрывными). (а) таблица допустимых размеров (таблица, в которую сведены допустимые размеры): не содержит двусловных синтаксических групп (б) таблица допустимых размеров (таблица, размеры которой допустимы): таблицадопустимыхразмеров содержит синтаксическую группу допустимых размеров таблицадопустимыхразмеров

СТРУКТУРЫ СОСТАВЛЯЮЩИХ И ЗАВИСИМОСТЕЙ: ГИБРИДНЫЕ СТРУКТУРЫ Синтаксические группы с внутренней иерархией и без таковой; отсутствие внутренней иерархии в предложно-субстантивном сочетании Возможность установления подчинительной связи между группами в целом; выделение в группу единиц актуального членения (здесь – темы) Допустимость разрывных групп

РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Тестелец Я. Г. Введение в общий синтаксис. М., (Глава I) Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., (Глава 1) ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА Мельчук И.А. Опыт теории лингвистических моделей «Смысл Текст». М., (1974 или 1999) (Введение, § 2; Глава I, § 3)