Статистическое разрешение лексико-семантической неоднозначности в контекстах для предметных имён существительных Ольга Митрофанова, Полина Паничева (СПбГУ,

Презентация:



Advertisements
Похожие презентации
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Advertisements

Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Лексическое значение слова- это значение того или иного слова.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Статистические гипотезы Лекция 2.
Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
3.1. Назначение онтологий. Информационный поиск..
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Н.В.Лукашевич, Д.С Чуйко Автоматическое разрешение лексической многозначности на основе тезаурусных знаний АНО Центр информационных исследований МГУ им.
Разработка тестов знаний. Формирование критериев оценки Фокус-группа для определения областей знаний, которые подлежат проверке: 1)Специалисты направления.
выявить лексико-семантические и структурно-грамматические особенности полисемии; исследовать богатство и колорит языка. целесообразность рассмотрения.
Презентация подготовлена методистом по информатике и ИКТ Соболевой Лидией Алексеевной (НМЦ Адмиралтейского района Санкт-Петербурга)
Диагностика и мониторинг в начальной школе МОУ СОШ 2 г. Краснокамска учитель Леткеман Л.П.
Разрешение функциональной омонимии на основе контекстных правил О.А. Невзорова, Ю.В. Зинькина, Н.В. Пяткин НИИММ им. Н.Г. Чеботарева, Казань.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Строение и грамматическое значение словосочетаний -Знать основные виды связи слов в словосочетании. -Уметь отличать словосочетание от предложения, вычленять.
Транксрипт:

Статистическое разрешение лексико-семантической неоднозначности в контекстах для предметных имён существительных Ольга Митрофанова, Полина Паничева (СПбГУ, Ольга Ляшевская (ИРЯ, Москва,

1. Цели и задачи исследования Цель исследования: автоматизация разрешения лексико-семантической неоднозначности текстов на русском языке. Задачи исследования: подготовка компьютерного инструмента автоматического разрешения лексико-семантической неоднозначности слов в контекстах; обработка экспериментальных выборок неоднозначных контекстов с помощью модуля машинного обучения и распознавания образов; определение оптимальных условий, при которых качество разрешения лексико-семантической неоднозначности слов в контексте было бы высоким.

2. Методы разрешения лексико-семантической неоднозначности со словарной поддержкой (используются компьютерные тезаурусы WordNet, FrameNet; РуТез, семантический словарь НКРЯ – для русского языка) или/и статистические (используется статистическая обработка корпусов текстов: анализ дистрибуций частеречных тегов, лексических маркеров контекстных элементов).

3. Исследовательская гипотеза Статистическое разрешение лексико-семантической неоднозначности слов можно эффективно проводить с учётом дистрибуций лексико-семантических тегов в контекстах. Таких исследований на материале корпусов русского языка до нынешнего времени не проводилось. Эксперименты подобного рода впервые осуществлены в рамках обсуждаемого проекта.

4. Экспериментальный материал Эксперименты проводились на материале Национального корпуса русского языка (НКРЯ, В качестве тестовых лексем выбраны имена существительные: дом, орган, лук, глава, площадь, проспект, клетка, коса… Каждому значению соответствует особая комбинация тегов, принятых в системе разметки НКРЯ:

Пример: ЛУК m1. Огородное или дикорастущее растение сем. лилейных с острым вкусом луковицы и съедобными трубчатыми листьями r:concr t:plant t:fruit t:food pt:aggr Репчатый лук. m2. Ручное оружие для метания стрел в виде пружинящей дуги, стянутой тетивой r:concr t:tool:weapon top:arc Стрельба из лука. Общее число контекстов слова лук – 2200, из них для значения m1 – 1600, для значения m2 – 600

5. Компьютерное обеспечение экспериментов Для разрешения неоднозначности адаптирован компьютерный инструмент автоматической классификации лексики. Проводится автоматическая классификация контекстов употребления слов в разных значениях с использованием векторной модели экспериментальной выборки. Осуществлялось снятие лексико-семантической неоднозначности в двух режимах, с опорой на: лексические маркеры значений слов в контекстах, лексико-семантическую разметку контекстов. Процедуры: предобработка; машинное обучение; распознавание образов.

5.1. Предобработка В экспериментальной выборке определяется число контекстов на каждое из значений слова. Для каждого из значений формируются эталонная выборка: случайным образом отобранные контексты со снятой неоднозначностью, где реализуется рассматриваемое значение, тестовая выборка: контексты, для которых проводится автоматическое разрешение неоднозначности без учёта априорной лексико- семантической информации.

5.2. Машинное обучение Проводится формирование статистических образов для каждого из рассматриваемых значений слова. Образ значения: вектор в векторном пространстве, координаты которого определяются частотами встречаемости лексических маркеров значения в эталонной выборке или частотами встречаемости лексико-семантических тегов контекстных элементов в эталонной выборке. Устанавливаются дистрибуции лексических маркеров и лексико-семантических тегов в выборке.

5.3. Распознавание образов Тестовые контексты представляются как вектора в векторном пространстве. Измеряется расстояние между контекстными векторами и каждым из образов значений. Выбирается образ, к которому контекстный вектор расположен ближе всего. Анализируемому слову в контексте приписывается значение ближайшего образа.

6. Ход экспериментов Проведены эксперименты со сменой параметров: мера расстояния: Eucl, Hm, Cos объем эталонной выборки: 15, 55, 75, 100, 200, 500… объем тестовой выборки: 10, 20… Во всех экспериментах контекст не ограничивался окном ±N. Проводится проверка качества распознавания: сравниваются результаты автоматической и ручной обработки контекстов, вычисляется доля правильных решений для каждого из значений.

Пример: ОРГАН m1. Клавишный духовой музыкальный инструмент, состоящий из труб, в к-рые нагнетается воздух. m2. Часть организма, имеющая определённое строение и специальное назначение. m3. Государственное или общественное учреждение, организация. Разрешение неоднозначности на основе лексических маркеров, объём эталонных выборок 55, объём тестовых выборок 10. Euclm1m2m3Hmm1m2m3Cosm1m2m3 m m1721 m m2091 m m3118

7. Сравнение результатов разрешения неоднозначности на основе лексических маркеров и лексико-семантических тегов Эксперименты проводились с эталонными выборками объёмом 500 контекстов, с тестовыми выборками 20 контекстов. [1] Помню хлеб с изюмом, с луком, с какими-то кореньями. Исходное значение: m1 Распознавание по лексическим маркерам: Распознанное значение: m1 Сos = 0,572 Распознавание по лексико-семантическим тегам: Распознанное значение: m1 Cos = 0,786

[2] Одни тугие луки, над которыми несколько человек справиться не могли, «играючи» натягивали, другие толстенные железные полосы вокруг шеи врага скручивали, третьи возы через броды на себе перетаскивали, ядра через самые широкие реки запросто перебрасывали. Исходное значение: m2 Распознавание по лексическим маркерам: распознанное значение: m2 Cos = 0,533 Распознавание по лексико-семантическим тегам: распознанное значение: m2 Cos = 0,550

[3] Начинают принимать лук, капусту – гляди в оба глаза. Исходное значение: m1 Распознавание по лексическим маркерам: распознанное значение: m2 Cos = 0,502 Распознавание по лексико-семантическим тегам: распознанное значение: m1 Cos = 0,514

[4] Причем корейцы отпускали в прошлом году лук по три с полтиной, на базарах осенью он шел по пять, а весной 2003-го цена достигла десятки. Исходное значение: m2 Распознавание по лексическим маркерам: распознанное значение: m2 Cos = 0,526 Распознавание по лексико-семантическим тегам: распознанное значение: m2 Cos = 0,514

8. Оценка качества разрешения неоднозначности Пример: ЛУК Разрешение неоднозначности на основе лексических маркеров: m1: 75% m2: 90% в среднем 83% правильных решений Разрешение неоднозначности на основе лексико- семантических тегов: m1: 75% m2: 95% в среднем 85% правильных решений.

9. Причины неудач при автоматическом разрешении лексико-семантической неоднозначности Основная причина: недостаточность контекстного окружения для диагностики значения слова в чрезмерно коротких контекстах: ср. контекст [2] или в слишком широких контекстах: ср. контекст [4].

10. Анализ контекстов с диффузными значениями Пример: ДОМ [5] А в доме у Ёжика топилась печь, потрескивал в печи огонь, а сам Ёжик сидел на полу у печки, помаргивая, глядел на пламя и радовался. Диффузные значения m1a/m1b m1а. Жилое (или для учреждения) здание m1b. Свое жильё Распознанное значение: m1a Cos = 0,429

[6] Родственники у Ливии все как один люди практичные, богатые и важные, хоть и не без вывертов; кажется, единственный человек, который уважает её в этом доме, – это её дворецкий, Трефль. Диффузные значения m1b/m2 m1b. Свое жильё m2. Семья, люди, живущие вместе, их хозяйство Распознанное значение: m2 Cos = 0,452

11. Оптимальные условия автоматического разрешения лексико-семантической неоднозначности Высокий объём экспериментальной выборки: > наличие в выборке не менее 100 контекстов употребления слова в исследуемом значении; > оптимальный объём эталонной выборки около 500 контекстов. Оценка близости контекстов к эталонной выборке с использованием значения Cos; Возможность снятия неоднозначности на основе лексических маркеров значения слова в контексте либо на основе лексико-семантических тегов его контекстного окружения.

12. Итоги Подготовлен и протестирован компьютерный инструмент разрешения лексико-семантической неоднозначности. Получены положительные результаты по автоматическому разрешению неоднозначности в контекстах для имён существительных. Подтверждена гипотеза об эффективности разрешения неоднозначности с учётом лексико-семантической разметки корпуса текстов. Определены условия, при которых качество разрешения неоднозначности высоко: доля правильных решений достигает 85% (в некоторых случаях до 95%).

13. Перспективы развития исследования Продолжение исследования предполагает проведение экспериментов по разрешению лексико-семантической неоднозначности: на обширном корпусном материале; с оценкой контекстов на основе комбинированных признаков; с изменением ширины контекстного окна; с детальным анализом диффузных контекстов употребления лексем в сопряжённых значениях; с использованием эталонных образов семантических классов для разрешения неоднозначности слов – представителей этих классов.