Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Введение в теорию компиляции Основные принципы построения трансляторов.
Автоматизация отладки алгоритмов поверхностно синтаксического анализа Баталина А.М., Айриян Г.Ю., Епифанов М.Е., Кобзарева Т.Ю., Лахути Д.Г. моделирование.
Инструментальная среда экспертной обработки японских текстов Жалыбин П.П. Мальковский М.Г. Диалог
Частные методы, входящие в контекстный анализ. Апресян,Ю.Д. Дистрибутивный анализ // Лингвистический энциклопедический словарь. - М., 1990: 137 – 138.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Грамматические категории. Универсальная схема анализа.
Особенности и структура контрольно – измерительных материалов по информатике и ИКТ (9 класс) Председатель предметной комиссии по информатике Ленинского.
Научный стиль. Сфера употребления Научные доклады и лекции, выступления на научных конференциях и совещаниях являются образцами научного стиля речи. Также.
М.Ю. Харламов, ВНУ им. В.Даля, Генерация объектного кода это перевод компилятором внутреннего представ­ления исходной программы в цепочку символов.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом

ПЛАН ЛЕКЦИЙ Xerox Tools: альтернативные инструменты операции высокого уровня дополнительные функциональные возможности 2.Резюме по морфологии специальные функции: технология ISpell «предсказание» в АОТ 3.Частеречная разметка типы омонимии данные о русских омоформах разметка в Национальном корпусе методы снятия грамматической неоднозначности

ДРУГИЕ ИНСТРУМЕНТЫ ДЛЯ РАБОТЫ С КОНЕЧНЫМИ ПРЕОБРАЗОВАТЕЛЯМИ FSA Utilities (Gertjaan van NOORD, State University of Groningen) Intex (Max Silberztein, Laboratoire d'Automatique Documentaire et Linguistique, Université Paris 7, сейчас - Université de Franche-Comté) fcomte.fr/ fcomte.fr/ Unitex - версия Intex на условиях GPL: (Institut d'électronique et d'informatique Gaspard-Monge, Université Paris-est Marne la vallée) igm.univ-mlv.fr/~unitex/ igm.univ-mlv.fr/~unitex/ FSM tools (Mehryar MOHRI, AT&T)

ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ XEROX TOOLS Помимо моделирования порядка следования конструктивных компонентов и соотнесения ПВ с ПС: Моделирование формальных модификаций (например, чередований) –собственный компилятор для двухуровневых правил (twolc) –операции высоких уровней над регулярными выражениями

ДВУХУРОВНЕВЫЕ ПРАВИЛА (КРАТКИЕ СВЕДЕНИЯ) 1983: работа Киммо Коскенниеми Two-level morphology Основная идея: параллельное действие правил, работа которых не столько преобразует цепочки символов, сколько соотносит их между собой Четыре типа правил –a : b c_da всегда реализуется как b в контексте c_d; –a : b c_d a реализуется как b только в контексте c_d; –a : b c_d a реализуется как b только в контексте c_d и ни в каком другом контексте; –a : b / c_d a никогда не реализуется как b в контексте c_d

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (1) Предварительно вводятся: символ ?любой символ из используемого алфавита оператор $включение: $A = def [?* A ?*]

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (2) оператор замены A -> B = def [ [ ~$[A – 0] [A.x. B]]* ~$[A – 0]] «Все, что не содержит непустых цепочек языка A, сцепляется с преобразователем A.x. B с возможной итерацией всего этого (или, вообще, с заменой пустой цепочкой), после чего следует все, что не содержит непустых цепочек языка A»

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (3) Пример использования оператора замены: Чередования в 1 л. ед. ч. русских глаголов 2 спряжения: ходить – хожу, но ходят, ходит любить – люблю, но любят, любит без чередования говорить – говорю, но говорят, говорит

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (4) Лексикон Verb2 LEXICON Root ljub Ending1 ; khod Ending1 ; sid Ending1 ; govor: Ending1 ; LEXICON Ending1 +1pSg:+1pSgju # ; +2pSg:ish # ; +3pSg:it # ; +1pPl:im # ; +2pPl:ite # ; +3pPl:jat # ;в соотносит, например: ljub+1pSg ljub+1pSgju но ljub+3pPl ljubjat

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (5) В командной строке xfst read regex [[b +1pSg j u -> b l j u] & [d +1pSg j u -> z h u]] read Verb2.txt compose дает отношение, в котором соотносятся ljub+1pSg (ljub+1pSgju – промежуточный иуровень, отсутствует после композиции) ljublju

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (6) оператор разметки A -> B... C Всякая цепочка A в выражениях на верхней ленте преобразователя должна соответствовать на нижней ленте такой же цепочке, но только в окружении B и С

ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (7) Пример использования оператора разметки регулярное выражение a | e | i | o | u -> [... ] позволяет выделить все гласные квадратными скобками, т.е., например, соотнести: engineer:[e]ng[i]n[e][e]r

ШИРОКИЙ НАБОР ВОЗМОЖНОСТЕЙ XEROX TOOLS моделирование структуры составных единиц по конструктивному принципу («что за чем идет», на уровне морфологии – морфотактика) соотнесение разных уровней представления языковых единиц (более формальных – поверхностных и более содержательных – глубинных, «лексических») моделирование формальных модификаций соединяемых элементов (на уровне морфологии - морфонология)

КОНЕЧНЫЕ ПРЕОБРАЗОВАТЕЛИ - ЗАДАЧИ НА СТЫКЕ МОРФОЛОГИИ И СИНТАКСИСА - локальный синтаксический анализ: снятие неоднозначностей (после морфологического анализа перед синтаксическим) - сегментация текста - поверхностный синтаксический анализ: маркировка и фильтрация синтаксических составляющих

ТЕХНОЛОГИЯ ISPELL Ispell интерактивная программа проверки орфографии в среде Unix единый алгоритм и единая архитектура позволяют применять ко многим языкам, заменяя лишь базу данных

БАЗА ДАННЫХ ISPELL Хранит данные о наборе словоформ, правильно построенных в данном языке. Включает: Словарь (обязательный компонент) Файл аффиксов

ISPELL: СООТНОШЕНИЕ ДАННЫХ В СЛОВАРЕ И ФАЙЛЕ АФФИКСОВ В словаре записи двух типов: словоформы без «флагов» (нет потребности в файле аффиксов) бугрится бугров бугром словоформы с «флагами» (отсылками к словарю аффиксов) бугрившийся/A бугристость/F бугристый/AS

ISPELL: СТРУКТУРА «ФЛАГА» В ФАЙЛЕ АФФИКСОВ flag *A: # # прилагательные и причастия # # прилагательные/причастия на -ый (м.р. в ед. и мн.ч.) [^Ц] Ы Й>-ЫЙ,ОГО# белый > белого (р.п.) Ц Ы Й>-ЫЙ,ЕГО# куцый > куцего (р.п.) [^Ц] Ы Й>-ЫЙ,ОМУ# белый > белому (д.п.) Ц Ы Й>-ЫЙ,ЕМУ# куцый > куцему (д.п.) Ы Й>-Й,М# белый > белым (т.п.) [^Ц] Ы Й>-ЫЙ,ОМ# белый > белом (п.п.) Ц Ы Й>-ЫЙ,ЕМ# куцый > куцем (п.п.) Ы Й>-Й,Е# белый > белые (мн,и.п.) Ы Й>-Й,Х# белый > белых (мн,р.п.) Ы Й>-Й,МИ# белый > белыми (мн,т.п.) # ж. и ср. род Ы Й>-ЫЙ,АЯ# белый > белая (ж,и.п.) [^Ц] Ы Й>-ЫЙ,ОЙ# белый > белой (ж,р.п.)

БАЗЫ ДАННЫХ ISPELL ДЛЯ РУССКОГО ЯЗЫКА 1.К.Книжник, В.Роганов 2.А.Лебедев ftp://scon155.phys.msu.su/pub/russian/ispell /rus-ispell.tar.gz