Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Лекция 6 Грамматическое значение и способы его выражения.
Автоматический морфологический анализ Алгоритмические методы (без обучения) Часть 2.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Владивостокский государственный университет экономики и сервиса Институт иностранных языков Кафедра русского языка ТЕОРЕТИЧЕСКАЯ ГРАММАТИКА Тема 1. Морфология.
Частные методы, входящие в контекстный анализ. Апресян,Ю.Д. Дистрибутивный анализ // Лингвистический энциклопедический словарь. - М., 1990: 137 – 138.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
Грамматика Грамматика: морфология синтаксис. Формальное объединение слов город, стол, карандаш Слова имеют одинаковую исходную форму; одинаковое изменение;
Лексика – Слово как лингвистическая единица в языках различных типов. – Понятие лексемы и парадигмы словоформ. – Системность и структурность в лексике.
Основные понятия морфологии. 1. Словоформа, лексема и парадигма. Словоформа - конкретно наблюдаемое слово в контексте. Словоформа - конкретно наблюдаемое.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Грамматические категории. Универсальная схема анализа.
Введение в языкознание Л.А. Козловская. Лекция 1. Предмет, структура и задачи языкознания Место языкознания в системе наук. Внутренняя и внешняя лингвистика.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом

МОРФОЛОГИЧЕСКИЙ УРОВЕНЬ В ЛИТ Основные уровни единиц: единицы плана выражения (графемы) минимальные носители значения (морфемы) автономные носители значения (слова) носители коммуникативно значимой информации (предложения)

МОРФОЛОГИЧЕСКИЙ УРОВЕНЬ В ЛИТ Основные уровни единиц: единицы плана выражения (графемы) минимальные носители значения (морфемы) автономные носители значения (слова) носители коммуникативно значимой информации (предложения)

СПЕЦИФИКА СЛОВА КАК ЕДИНИЦЫ ЯЗЫКА -минимальный автономный носитель значения, отсюда - уровень наиболее простых и систематических соответствий между разными знаковыми системами -слова в большинстве (активно изучаемых) языков обладают свойством вариантности

ФУНКЦИОНАЛЬНОСТЬ ЛИТ: операции с текстом в цифровом представлении Уровень языка: Лексико- морфологи- ческий СинтаксическийТекстовой Типовые операции: Форм.Содерж.Форм.Содерж.Форм.Содерж. Коррекция+–+±–– Перевод++++(±)(±)(±)(±) Компрессия+(±)(±)(±)(±)(±)(±)±(±)(±) Информ. запрос +±±±––

ПОЧЕМУ РАСПОЗНАВАНИЕ СЛОВОФОРМ НЕ ВСЕГДА СТРОИТСЯ НА ИХ СПИСКЕ? Количественные пределы варьирования: исследовать имеет 192 синтетические формы Циклический характер порождения словоформ в некоторых языках: çöplük-ler-imiz-de-ki-ler-den-miy-di? Это не из тех ли, кто был в наших мусорных бачках? (тур.)

НЕОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при машинном переводе исследоватьresearch, explore, investigate, examine, … Inf-ve исследуюresearch, explore, investigate, examine, … Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf. исследуешьresearch, explore, investigate, examine, … Simple Pres. (~3sg), Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf. исследуетresearch, explore, investigate, examine, … Simple Pres. 3sg, Pres. Cont., Simple Fut., Fut.Cont.,Fut.Perf. … исследовалresearch, explore, investigate, examine, … Simple Past, Pres.Perf., Past Cont., Past Perf. исследовалаresearch, explore, investigate, examine, … Simple Past, Pres.Perf., Past Cont., Past Perf. …

ОПТИМИЗИРОВАННАЯ ФУНКЦИОНАЛЬНАЯ СХЕМА обработки словоформы при машинном переводе исследовать{исследовать} + +Неопр.ф. исследую{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л. исследуешь{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л. исследует{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л. … исследовал{исследовать} + + Прош. вр. + Ед.ч. + М р. исследовала{исследовать} + + Прош. вр. + Ед.ч. + Ж р. … … {исследовать}research, explore, investigate, examine, analyse, test, inquire into… … Неопр.ф.Inf-ve Наст.+Ед.+1S.Pres.(~3sg), Pres. Cont. Наст.+Ед.+2S.Pres.(~3sg), Pres. Cont. Наст.+Ед.+3S.Pres. 3sg, Pres. Cont. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Прош.+Ед.S. Past, Pres.Perf., Past Cont., Past Perf.

ОБРАБОТКА СЛОВОФОРМЫ: морфологический анализ исследовать{исследовать} + +Неопр.ф. исследую{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л. исследуешь{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л. исследует{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л. … исследовал{исследовать} + + Прош. вр. + Ед.ч. + М р. исследовала{исследовать} + + Прош. вр. + Ед.ч. + Ж р. … … {исследовать}research, explore, investigate, examine, analyse, test, inquire into… … Неопр.ф.Inf-ve Наст.+Ед.+1S.Pres.(~3sg), Pres. Cont. Наст.+Ед.+2S.Pres.(~3sg), Pres. Cont. Наст.+Ед.+3S.Pres. 3sg, Pres. Cont. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Буд.+Ед.+1S. Fut., Fut.Cont.,Fut.Perf. Прош.+Ед.S. Past, Pres.Perf., Past Cont., Past Perf.

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез {исследовать} + Неопр.ф.исследовать {исследовать} + Наст. вр. + Ед.ч. + 1 л.исследую {исследовать} + Наст. вр. + Ед.ч. + 2 л.исследуешь {исследовать} + Наст. вр. + Ед.ч. + 3 л.исследует … {исследовать} + Буд. вр. + Ед.ч. + 1 л.исследую, буду исследовать {исследовать} + Буд. вр. + Ед.ч. + 2 л.исследуешь, будешь исследовать {исследовать} + Буд. вр. + Ед.ч. + 3 л.исследует, будет исследовать … {исследовать} + Прош. вр. + Ед.ч. + М р.исследовал {исследовать} + Прош. вр. + Ед.ч. + Ж р.исследовала …

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез {исследовать} + Неопр.ф.исследовать {исследовать} + Наст. вр. + Ед.ч. + 1 л.исследую {исследовать} + Наст. вр. + Ед.ч. + 2 л.исследуешь {исследовать} + Наст. вр. + Ед.ч. + 3 л.исследует … {исследовать} + Буд. вр. + Ед.ч. + 1 л.исследую, буду исследовать {исследовать} + Буд. вр. + Ед.ч. + 2 л.исследуешь, будешь исследовать {исследовать} + Буд. вр. + Ед.ч. + 3 л.исследует, будет исследовать … {исследовать} + Прош. вр. + Ед.ч. + М р.исследовал {исследовать} + Прош. вр. + Ед.ч. + Ж р.исследовала …

ПОРОЖДЕНИЕ СЛОВОФОРМЫ: морфологический синтез {исследовать} + Неопр.ф.исследовать {исследовать} + Наст. вр. + Ед.ч. + 1 л.исследую {исследовать} + Наст. вр. + Ед.ч. + 2 л.исследуешь {исследовать} + Наст. вр. + Ед.ч. + 3 л.исследует … {исследовать} + Буд. вр. + Ед.ч. + 1 л.исследую, буду исследовать {исследовать} + Буд. вр. + Ед.ч. + 2 л.исследуешь, будешь исследовать {исследовать} + Буд. вр. + Ед.ч. + 3 л.исследует, будет исследовать … {исследовать} + Прош. вр. + Ед.ч. + М р.исследовал {исследовать} + Прош. вр. + Ед.ч. + Ж р.исследовала …

МОРФОЛОГИЧЕСКИЙ АНАЛИЗ и ЛЕММАТИЗАЦИЯ исследовать{исследовать} + +Неопр.ф. исследую{исследовать} + + Наст., Буд. вр. + Ед.ч. + 1 л. исследуешь{исследовать} + + Наст., Буд. вр. + Ед.ч. + 2 л. исследует{исследовать} + + Наст., Буд. вр. + Ед.ч. + 3 л. … исследовал{исследовать} + + Прош. вр. + Ед.ч. + М р. исследовала{исследовать} + + Прош. вр. + Ед.ч. + Ж р. … исследовать{исследовать} исследую{исследовать} исследуешь{исследовать} исследует{исследовать} … исследовал{исследовать} исследовала{исследовать} …

МОРФОЛОГИЧЕСКИЙ СИНТЕЗ и ПОРОЖДЕНИЕ ПАРАДИГМЫ {исследовать} + Неопр.ф. исследовать {исследовать} + Наст. вр. + Ед.ч. + 1 л. исследую {исследовать} + Наст. вр. + Ед.ч. + 2 л. исследуешь {исследовать} + Наст. вр. + Ед.ч. + 3 л. исследует … {исследовать} + Буд. вр. + Ед.ч. + 1 л. исследую, буду исследовать {исследовать} + Буд. вр. + Ед.ч. + 2 л. исследуешь, будешь исследовать {исследовать} + Буд. вр. + Ед.ч. + 3 л. исследует, будет исследовать … {исследовать}исследовать исследую исследуешь исследует исследуем исследуете исследуют буду исследовать будешь исследовать будет исследовать … исследовал исследовала …

МОРФОЛОГИЧЕСКИЙ УРОВЕНЬ В ЛИТ

МЕТОДЫ МОРФОЛОГИЧЕСКОГО АНАЛИЗА ПО Н.Н.ЛЕОНТЬЕВОЙ a)словарный –со словарем словоформ –со словарем основ b)бессловарный (фактически – со словарем псевдоокончаний) + анализ по аналогии («предсказание»)

СЕГМЕНТАЦИЯ ТЕКСТА НА СЛОВА Англ. tokenization Синтагматическая идентификация словоформ, в отличие от парадигматической идентификации словоформ (морф. анализа) Принципиальные возможности в орфографии данного языка предусмотрены пробелы между словами; в орфографии данного языка нет пробелов или иных разделителей между словами.

СЕГМЕНТАЦИЯ НА СЛОВА ТЕКСТА С ПРОБЕЛАМИ Осложняющие факторы: сегменты текста между пробелами требуют переразложения –du = de + le; au = à + le (франц.), gdybym = gdy + bym, bardzobym = bardzo + bym (пол.); neunzehnhundertzweiundfünfzig (нем.) –буду (часто) писать; железная дорога; с разбегу; Du holst mich ab (нем.) словоформы могут разделяться не только пробелами –наконец-то ( vs кто-то, во-первых, по-моему), theyre и isnt ( vs friends), and/or ( vs accept/reject)

СЕГМЕНТАЦИЯ ТЕКСТА БЕЗ ПРОБЕЛОВ МЕЖДУ СЛОВАМИ

МОРФОЛОГИЧЕСКИЙ УРОВЕНЬ В ЛИТ

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ? дневн(ой) дневник вечерн(ий)вечерник ночн(ой)ночник утренн(ий)утренник

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ? дневник{дневной} + тетрадь для записей, заполняемая с указанной периодичностью, {дневной} + студент формы обучения, предусматривающей занятия в указанное время суток вечерник{вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток ночник{ночной} + лампа, используемая в указанное время суток утренник{утренний} + представление, происходящее в указанное время суток АНАЛИЗ:

ЕСТЬ ЛИ ДОСТАТОЧНАЯ ПРЕДСКАЗУЕМОСТЬ? {дневной} + студент формы обучения, предусматривающей занятия в указанное время суток дневник {вечерний} + студент формы обучения, предусматривающей занятия в указанное время суток вечерник {утренний} + студент формы обучения, предусматривающей занятия в указанное время суток ?? {дневной} + лампа, используемая в указанное время суток ?? {вечерний} + представление, происходящее в указанное время суток ?? СИНТЕЗ:

СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕ Внутренний смысл противопоставления: варианты одной лексической единицы или разные лексические единицы Подходы в теоретической морфологии: 28 «элементарных различий» словоизменения и словообразования по Ф.Планку 15 критериев противопоставления лексического и грамматического у Н.В.Перцова –вхождение/невхождение в категории противопоставленных единиц и обязательные категории; –коррелятивность; –композиционность; и т.д.

СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕ Внутренний смысл противопоставления: варианты одной лексической единицы или разные лексические единицы Технические критерии противопоставления: при анализе –композиционность: словоформа без остатка разбивается на формальные показатели (знаки), значение формы без остатка раскладывается на значения этих показателей при синтезе –регулярность (коррелятивность): лексические единицы разбиты на (достаточно большие) классы, и для каждого класса известен набор возможных словоформ, а также правила, по которым их можно строить

СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕ Технический критерий позволяет подключить к явлениям словоизменения (для русского языка): образование существительных от прилагательных образование существительных (имен действия и имен деятеля) от глаголов образование уменьшительных существительных Более осторожный термин С.А.Крылова и С.А.Старостина для таких явлений – «номинационное формообразование» (2003)

НОМИНАЦИОННОЕ ФОРМООБРАЗОВАНИЕ СРЕДИ ДРУГИХ ПЕРЕХОДНЫХ ЯВЛЕНИЙ (Крылов, Старостин 2003) номинационное словообразование номинационное формообразование словоизменительное словообразование словоизменительное формообразование лексикализация коррелятивность 1) связь с синтаксиче- ским значе- нием; 2) вхожде- ние в состав обязатель- ной катего- рии

СЛОВОИЗМЕНЕНИЕ И СЛОВООБРАЗОВАНИЕ Общий вывод для компьютерной морфологии: Класс явлений словоизменения может быть расширен, нужно только исчерпывающее и объективное описание указать класс лексем, которые подвергаются такому варьированию (образуют уменьшит./ аугментатив. форму и т.п.) указать правила варьирования для каждой лексемы из класса достаточно экономным образом Но следует учитывать фактор практической целесообразности с учетом функции конкретной компьютерной системы

ЦЕЛЕСООБРАЗНОСТЬ РАСШИРЕНИЯ СФЕРЫ СЛОВОИЗМЕНЕНИЯ Английские формы на –ing в англо-русском переводе причастия деепричастия отглагольные существительные walkingsingingworkingrunning идущийпоющийработающийбегущий ? идя*пояработая(бегая?), *бежа ходьбапениеработабегØ Вывод: рассмотреть –ing-овые формы как самостоятельные лексические единицы

ОСНОВНЫЕ ПОНЯТИЯ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ Части речи в компьютерной морфологии идентифицируются набором грамматических форм Формальные разряды частей речи в компьютерной морфологии идентифицируются набором средств порождения грамматических форм

ЧАСТИ РЕЧИ В КОМПЬЮТЕРНОЙ МОРФОЛОГИИ ДЛЯ РУССКОГО ЯЗЫКА Имя существительное: 6 падежей * 2 числа Имя прилагательное: 6 падежей * 2 числа (в ед.ч. 3 рода) + 4 кр. фр. + степ. сравнения Глагол: (неопр.ф. + личные формы изъяв.накл. + повел.накл. + прич. + деепр.) * 2 вида Неизменяемые части речи…

ФОРМАЛЬНЫЙ РАЗРЯД В КОМПЬЮТЕРНОЙ МОРФОЛОГИИ учител-ьучител-я учител-ей учител-юучител-ям учител-яучител-ей учител-емучител-ями учител-еучител-ях учитель, соболь, егерь… (типовая парадигма, морфологический тип)

ОДНА ПАРАДИГМА ИЛИ БОЛЬШЕ? узелузлы узлаузлов узлуузлам узелузлы узломузлами узлеузлах бубенбубны бубнабубнов бубнубубнам бубенбубны бубномбубнами бубнебубнах хребетхребты хребтахребтов хребтухребтам хребетхребты хребтомхребтами хребтехребтах

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемыИдентификатор парадигмы порогов302 пород005 породнени002 порожда401

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемы ОсноваИдентификатор парадигмы пороговыйпорогов302 породапород005 породнениепороднени002 порождатьпорожда401

ПЕРВИЧНЫЕ И ВТОРИЧНЫЕ ФУНКЦИИ (ПРОЦЕДУРЫ) В КОМПЬЮТЕРНОЙ МОРФОЛОГИИ

ПРОЦЕДУРА ОПРЕДЕЛЕНИЯ ТИПОВОЙ ПАРАДИГМЫ если слово оканчивается на щийся, то ТП 5; если слово оканчивается на ин, ын, то ТП 20; если слово оканчивается на ов, ёв, ев, то ТП 21; если слово оканчивается на цый, то ТП 6; если слово оканчивается на ый, то ТП 1; если слово оканчивается на кий, гий, хий, то ТП 3; если слово оканчивается на щий, то ТП 4; если слово оканчивается на жий, ший, чий, то ТП 4 или ТП 24; если слово оканчивается на ий, то ТП 2 или ТП 24; если слово оканчивается на кой, гой, хой, жой, шой, чой, щой, то ТП 8; если слово оканчивается на ой, то ТП 7.

ТИПИЗАЦИЯ ВНУТРИ ПРЕДСКАЗАНИЯ

РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М., 2006 (глава 4, (3)) Коваль С.А. Лингвистические проблемы компьютерной морфологии. СПб., 2005 Библиография, собранная С. Нагелем (Sebastian Nagel): muenchen.de/~wastl/rmorph/rusmorphBib. pdf

УПОМЯНУТАЯ ЛИТЕРАТУРА Перцов Н.В. Инварианты в русском словоизменении. М.: Языки русской культуры, 2001 (глава 2) Крылов С.А., Старостин С.А. Актуальные задачи морфологического анализа и синтеза в интегрированной информационной среде STARLING // Тр. Междунар. конф. Диалог2003 ( 21.ru/Archive/2003/Krylov.htm)