Метод выделения словаря моделей управления для глаголов русского языка Эдуард Клышинский Наталия Кочеткова МИЭМ НИУ ВШЭ Белгород 17.10.2012.

Презентация:



Advertisements
Похожие презентации
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Advertisements

Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Анализ воспитательной работы В ГБС(К)ОУ школе учебный год.
Отделение ПФР по Тамбовской области Проведение кампании по повышению пенсионной грамотности молодежи в Тамбовской области в 2011 году 8 февраля 2012 г.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Тренажёр Сложение и вычитание чисел в пределах 100.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Анализ анкетирования учащихся Использование информационно- коммуникативных технологий учащимися.
1. Определить последовательность проезда перекрестка
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
Матемтааки ЕТ СТ 2 класс Шипилова Наталия Викторовна учитель начальных классов, ВКК Шипилова Наталия Викторовна учитель начальных классов, ВКК.
Курсы повышения квалификации (общие показатели в %)
Качество знаний, успеваемость и СОУ за I полугодие учебный год.

РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
Электронный мониторинг Национальной образовательной инициативы «Наша новая школа» Петряева Е.Ю., руководитель службы мониторинга.
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Транксрипт:

Метод выделения словаря моделей управления для глаголов русского языка Эдуард Клышинский Наталия Кочеткова МИЭМ НИУ ВШЭ Белгород

Глагольное управление Мама мыла щетку щеткой Мальчик нес щенка к щенку. Мальчик нес еду щенку. Но не Мама мыла щетке щетках Мальчик нес щенки превыше щенков.

Глагольное управление Ехать на поезде на верхней полке на юг на конференцию на свой доклад на две недели на казенные деньги. Семантика тоже играет свою роль.

Зачем используется глагольное управление и сочетаемость? Проверка корректности автоматического анализа/синтеза текста. Снятие неоднозначности текста. Собственно синтаксический анализ. …

Что было до этого? Кустова Г. И., Толдова С. Ю. Семантические фильтры для разрешения многозначности в Национальном корпусе русского языка: глаголы // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2008». М, С. 522–529. Гельбух А. Разрешение синтаксической неоднозначности и извлечение словаря моделей управления из корпуса текстов // Искусственный интеллект 2, 1999 …

Что уже есть? Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, с. – 2500 статей Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - – статей Большаков И.А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс – 6,93 млн. сочетаний

Что необходимо? Модель управления для глаголов вида глагол+предлог+падеж – глаголов, около сочетаний вида глагол+предлог+разрешенные падежи Словарь сочетаемости слов русского языка – несколько десятков миллионов сочетаний вида глагол+предлог+существительное

Что уже есть? Гельбух А. Разрешение синтаксической неоднозначности и извлечение словаря моделей управления из корпуса текстов // Материалы VIII Международной конференции KDS-99 Automatic Acquisition of a Large Subcategorization Dictionary from Corpora // In Proc. of the 31st Meeting of ACL, pp. 235–242 Messiant C., Korhonen F., Poibeau T. LexSchem: A Large Subcategorization Lexicon for French Verbs // In Proc. of LREC 2008 Preiss J., Briscoe T., Korhonen A. A System for Large-Scale Acquisition of Verbal, Nominal and Adjectival Subcategorization Frames from Corpora // in Proc. of the 45 Annual Meeting of the Association of Computational Linguistics, pages

Что мешает? Большой объем работ нужна автоматизация Большой уровень омонимии нужно применять синтаксис или снятие неоднозначности Синтаксис пока не так хорош или мы теряем качество, или объем

Гипотеза Если: взять достаточно много текстов; рассматривать только однозначные слова; брать строго определенные группы, то можно автоматически получить достаточно большой словарь синтаксической сочетаемости.

Использованные тексты Библиотека Мошкова lib.rus.ec РИА Новости Коммерсант Независимая газета Взгляд … Итого10.5 млрд

Омонимия в русском языке Compulenta.ru за 2009 год Reuters.com за 2009 год Однозначные52,55%38,87% Неизвестные4,27%7,65% Неоднозначные43,17%53,46% по части речи5,51%0% по нормальной форме 3,61%0,32% оба варианта9,37%50,35% по параметрам24,68%2,79%

Черная кошка забежала в дом. В дом быстро забежали две черные кошки. Разбираемые конструкции Прилагательное существительное глагол Глагол предлог существительное Деепричастие предлог существительное (и другие)

Словарь сочетаемости 1.Из текстов извлечены указанные конструкции, составленные из слов, однозначных по части речи (не параметрам и не нормальным формам!). состоятся вечера приглашает на концерт исполнят произведения состоится встреча примут участие откроется выставка

Словарь сочетаемости 2. Слова приводятся к начальной форме, после чего считается статистика употреблений ПРИГЛАШАТЬ;НА;КОНФЕРЕНЦИЯ;218 ПРИГЛАШАТЬ;НА;КОНЦЕРТ;281 ПРИГЛАШАТЬ;НА;КОНЬЯК;3 ПРИГЛАШАТЬ;НА;КОРАБЛЬ;17 ПРИГЛАШАТЬ;НА;КОРДОН;3 ПРИГЛАШАТЬ;НА;КОРОНАЦИЯ;6

Словарь сочетаемости ПараметрыЧисло сочетаний, млн глагол + сущ23.27 глагол + наречие 0.83 деепр + сущ 2.74 деепр + наречие 0.12 причастие + сущ 6.48 прич + наречие 0.24 сущ + прил 5.71 сущ + сущ 8.49

Словарь глагольного управления 3. Существительные, присоединенные к глаголу, могут быть неоднозначны по падежу. Оставляем конструкции с однозначными существительными и переходим к записям вида глагол+предлог+падеж. Считаем частотность таких конструкций. ПРИГЛАШАТЬ;К;0*0*8950*21*17*5 ПРИГЛАШАТЬ;КО;0*0*489*0*0*0 ПРИГЛАШАТЬ;КРОМЕ;0*9*0*0*0*0 ПРИГЛАШАТЬ;НА;0*0*0*30707*0*89 ПРИГЛАШАТЬ;НАД;0*0*0*0*21*0 ПРИГЛАШАТЬ;НАСЧЕТ;0*17*0*0*0*0

Словарь глагольного управления После некоторой обработки с целью повышения качества мы получили около подобных сочетаний (сюда включены и составные предлоги).

Словарь глагольного управления (плюсы) Теперь мы знаем не только какие глаголы встречаются с какими предлогами, но и какие падежи возможны с данным предлогом (если их может быть несколько) В;0*0*0* *0* АННИГИЛИРОВАТЬ;В;0*0*0*13*0*129 но АНИМИРОВАТЬСЯ;В;0*0*0*0*0*5 АНЕКСИРОВАТЬ;В;0*0*0*0*0*25 АУКНУТЬ;В;0*0*0*17*0*0

Словарь глагольного управления (минусы) Узус значительно отличается от грамматики АДАПТИРОВАТЬСЯ;В;0*0*0*93*0*1925 адаптироваться в жизнь Но при этом АННИГИЛИРОВАТЬ;В;0*0*0*13*0*129 Аннигилировать в пыль в космосе

Словарь глагольного управления (минусы) В словаре не появились, например, «нести»+ взамен вкось вкруг внутри … Потому что нести что-то взамен/вкруг/внутри чего-то

Что мы еще умеем Адъективное управление Довольный ответом Прил+сущ/прил+сущ Московский военный оркестр против Московская сторожевая оркестра но Известный ученый кот против Известного ученого Иванова Но фильтры помогают восстановить истину

Чего мы не умеем Сущ+сущ (дат.п.) Посвятить памятник Пушкину Работа с местоимениями (оно может делать что угодно) Работа с семантикой (ехать на юг на конференцию)

Другие языки Мы взяли новости Reuters за 2007 год. Анализ проводился при помощи nltk со снятием неоднозначности. Из примерно 120 млн словоупотреблений было выделено 1,2 млн различных сочетаний. Результат сопоставим с полученным для русского языка без снятия омонимии.

Спасибо за внимание!