ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.

Презентация:



Advertisements
Похожие презентации
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Advertisements

Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
Летняя школа по КЛ, 5-11 июля ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет.
ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Текстообразующие функции производных имен прилагательных в романе Б.Окуджавы «Путешествие дилетантов» Магистерская диссертация магистрантки филологического.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
ЕГЭ по русскому языку в 2015 году в новом формате Часть 1: особенности структуры специфика подготовки.
Билет Табличные базы данных (БД): основные понятия (поле, запись, первичный ключ записи); типы данных. Системы управления базами данных и принципы.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
АЛГОРИТМ (формальное определение) Всякий алгоритм может быть реализован соответствующей машиной Тьюринга Это основная гипотеза теории алгоритмов.
Задание 1. Запиши названия предметов. 2. Подчеркни в слове орфограммы.
Язык и речь Понятие модели при описании лингвистических фактов. Структурность языка. Соотношение единиц плана выражения и плана содержания. Уровни и единицы.
ПРЕЗЕНТАЦИЯ МАГИСТРАНТКИ ФИЛОЛОГИЧЕСКОГО ФАКУЛЬТЕТА КАФЕДРЫ РОМАНО - ГЕРМАНСКОГО ЯЗЫКОЗНАНИЯ АСТАПКИНОЙ ЕКАТЕРИНЫ СЕРГЕЕВНЫ ПРЕЗЕНТАЦИЯ МАГИСТРАНТКИ ФИЛОЛОГИЧЕСКОГО.
ВЫПОЛНЕНИЕ АЛГОРИТМОВ КОМПЬЮТЕРОМ. Алгоритм, записанный на «понятном» компьютеру языке программирования, называется программой. Программа данные, предназначенные.
Теория экономических информационных систем Семантические модели данных.
Основы информатики и программирования 1 курс экономический факультет 1 курс экономический факультет.
Разработка средств автоматического синтаксического анализа как модуля системы понимания текста Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю.
Транксрипт:

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ им. М.В. Ломоносова Факультет ВМиК

СОДЕРЖАНИЕ ДОКЛАДА 1. Задача формального описания лексических и морфосинтаксических особенностей текстовых единиц. 2. Результаты сравнительного анализа средств описания (НКРЯ, Alex, RCO). 3. Концепция лексико-синтаксического шаблона языковых конструкций. 4. Основные возможности языка записи лексико- синтаксических шаблонов (далее LSPL).

ЗАДАЧА ОПИСАНИЯ ЯЗЫКОВЫХ КОНСТРУКЦИЙ Изучение терминологических и дискурсивных особенностей НТ прозы Потребность формализовать характерные конструкции (Под T будем понимать D, Далее докажем P, Допустим, что S) Определение множества лексем, грамматических форм, синтаксических условий Фиксирование в виде декларативной структуры лексико-синтаксического шаблона языковой конструкции NG ACC [«мы»] «будем называть»T INS

СРЕДСТВА ОПИСАНИЯ ЕДИНИЦ ТЕКСТА ДЛЯ ПОИСКА ФРАГМЕНТОВ В ТЕКСТАХ НА РУССКОМ ЯЗЫКЕ Единицы текста: словоформы, последовательности слов, словосочетания Национальный корпус русского языка (НКРЯ) ограниченность корпуса; лингвистическая разметка поиск последовательности слов по их грамматическим и лексико- семантическим характеристикам Система Alex лексические шаблоны для узкоспециализированных текстов средства описания словосочетаний, без указания грамматических признаков RCO Pattern Extractor/система GATE правила и шаблоны для извлечения из текста специфических объектов формальный язык в стиле ЯП (атрибутно-объектная модель текста)

СРАВНЕНИЕ ЯЗЫКОВЫХ СРЕДСТВ: ОПИСАНИЕ ЛЕКСИКО-ГРАММАТИЧЕСКИХ ОСОБЕННОСТЕЙ Лексико-графические единицы Морфо-синтаксические условия Конкретная словоформаПозволяют все средства Произвольная символьная строка из буквенных и небуквенных символов НКРЯ не производит поиск строк со знаками препинания Произвольная словоформа в рамках лексемы Недоступно в Alex без описания шаблона всех словоформ Морфологические характеристики (часть речи, падеж, число, время) Есть в НКРЯ и RCO Грамматическое согласование нескольких единиц Нельзя непосредственно записать ни в одной из систем

СРАВНЕНИЕ ЯЗЫКОВЫХ СРЕДСТВ: ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ Логические операции Запись конструкций Комбинирование лексических условий Есть во всех системах Комбинирование морфо- синтаксических условий Есть в НКРЯ и RCO Альтернативы и повторенияОтсутствуют в НКРЯ Именование конструкцийВозможно в Alex и RCO

Разработка формального языка для: записи специфических языковых конструкций для их представления в системе автоматической обработки НТТ; записи запросов на поиск конструкций для системы поддержки лингвистических исследований. Лексико-синтаксический шаблон – структурный образец языковой конструкции, отображающий ее лексические и поверхностно-синтаксические свойства. Принцип отбора выразительных средств: гибкая и интуитивно понятная запись основных лексических и поверхностно-синтаксических свойств конструкций. ЛЕКСИКО-СИНТАКСИЧЕСКИЙ ШАБЛОН

ЯЗЫК LSPL-ШАБЛОНОВ: ОСНОВНЫЕ ВОЗМОЖНОСТИ Элемент-слово включает: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексема ( ) – A уточнение грамматических характеристик (имя=значение) – A Грамматическое согласование элементов шаблона: A N Слово тяжелый и следующее за ним существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

ЯЗЫК LSPL-ШАБЛОНОВ: ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ AP = A(A) | Pa(Pa) AS= { AP } N [в] (N) Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение []

ДОПОЛНИТЕЛЬНЫЕ ПРИМЕРЫ Однородные члены в виде именных групп: SNG = AN1 {, AN2} [и AN3] (AN1) Дама сдавала в багаж диван, чемодан, саквояж, картину, корзину, картонку и маленькую собачонку Шаблон типичной для деловой и НТ прозы конструкции: NP = AN1 {AN2 } (AN1) Характерная конструкция определения новых терминов: DT = NP1 ["мы"] "назовем" NP2 Указанную операцию назовем операцией поиска примеров

ЯЗЫК LSPL-ШАБЛОНОВ: СРАВНИТЕЛЬНЫЙ ПРИМЕР Прилагательное и существительное в именительном падеже единственного числа Язык LSPL: A N Язык RCO Pattern Extractor: {Morph.SpeechPart=Noun, Morph.Case=Nominative, Morph.Number=Singular} {Morph.SpeechPart=Adjective, Morph.Case=Nominative, Morph.Number=Singular}

ЗАКЛЮЧЕНИЕ Разработана первая версия программного модуля для поиска в тексте фрагментов, соответствующих заданному LSPL-шаблону. Изучаются возможности развития языка LSPL: усиление его выразительности: логическое комбинирование условий; грамматическое управление; введение операций над фрагментами: подсчет статистики; извлечение составных конструкций. СПАСИБО ЗА ВНИМАНИЕ!