Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова.

Презентация:



Advertisements
Похожие презентации
Страна Лингвиния Имя Прилагательно е Звукоподражани е Имя Числительно е Междометие Союз Частица Предло г Причастие Глагол Деепричастие Слово состояние.
Advertisements

Части речи Знаменательные части речи Существительное Прилагательное Глагол Наречие Числительное Местоимение.
Знаменательные части речи 1.Имя существительное 2.Имя прилагательное 3.Имя числительное 4.Местоимение 5.Глагол 6.Причастие 7.Деепричастие 8.Наречие. 9.Категория.
Принцип детального равновесия. Алгоритм Метрополиса. Эргодические схемы. Марковские цепи 2.4. Марковские цепи. Принцип детального равновесия.
Основные понятия морфологии. 1. Словоформа, лексема и парадигма. Словоформа - конкретно наблюдаемое слово в контексте. Словоформа - конкретно наблюдаемое.

Части речи Раздел языка – морфология Учитель начальных классов высшей категории МОУ СОШ 6 Г. Усть – Лабинска МОУ СОШ 6 Г. Усть – Лабинска Гуркина Елена.
Подготовила Одинцова Анастасия 5 б класс. 1)Как появилась часть речи имя существительное ? 2)Как появилась часть речи имя прилагательное? 3)Как появилась.
СОДЕРЖАНИЕ Самостоятельные части речи Самостоятельные части речи Имя существительное Имя существительное План морфологического разбора
Имя существительное Подсказка. Если какое-нибудь существительное окажется в предложении вместе с предлогом, не забудь об этом упомянуть. Это важно! Морфологический.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Цель. Закрепление умения выполнять морфологический разбор, систематизация знаний о грамматических признаках разных частей речи.
Самостоятельные и служебные части речи. Еще земли печален вид, А воздух уж весною дышит.
Морфологический разбор. Морфологический разбор имени существительного План разбора I.Часть речи. Общее значение. I.Часть речи. Общее значение. II.Морфологические.
Служебные части речи. Проект выполнил ученик Проект выполнил ученик 7 «а» класса Бережной С. 7 «а» класса Бережной С.
Триггеры в работе учителя русского языка и литературы.
Лингвистика или языкознание – наука о языке (от греч. «лингва» язык)
ЕГЭ МОРФОЛОГИЯ раздел науки о языке, изучающий слово как часть речи.
Морфологические нормы Тема урока :. - О чем может пойти речь на уроке ? - Какие ассоциации вызывает у вас словосочетание « морфологические нормы »? -
Транксрипт:

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова

Морфологическая разметка Начальная форма (лемма) грамматические характеристики Я иду по улице. Улице: lex=улица gr=S,f,sg,dat набор тегов

Автоматический морфологический анализ Мама мыла раму lex=«мыть» gr=V,act,f,indic,ipf,norm,praet,sg,tran lex=«мыло» gr=S,inan,n,nom,norm,pl lex=«мыло» gr=S,gen,inan,n,norm,sg lex=«мыло» gr=S,acc,inan,n,norm,pl задача выбора правильного варианта (дизамбигуация)

Дизамбигуация в текстах на английском языке Методы: Как правило, статистические алгоритмы на основе марковских моделей Точность: ~96%

Особенности английского языка Бедная морфология морфологическая разметка фактически сводится к POS-теггингу Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)

Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке

Параметры эксперимента Корпус: подкорпус НКРЯ со снятой омонимией (~6 млн словоупотреблений) Морфологический анализатор: Mystem 4 серии экспериментов (2 по 2): Набор частей речи – как в НКРЯ: Только POS POS, род, число, падеж, лицо, наклонение, время Изменённый набор частей речи: Только POS POS, род, число, падеж, лицо, наклонение, время 2 алгоритма: HMM и MEMM До (серия 1)После (серия 2) Существительное Местоименное существительное ПрилагательноеПрилагательное (полное) Местоименное прилагательное Глагол Наречие Местоименное наречие ПредикативНаречие Вводное словоНаречие Предлог Союз Междометие Частица Причастие (полное) Причастие (краткое) Прилагательное (краткое) Деепричастие

Алгоритмы Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка Набор наблюдаемых величин X (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: Сокращаем количество наблюдаемых состояний Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)

HMM Обучение: Сбор статистик по корпусу: P(y i |y j ) – матрица переходов P(x k |y i ) – вероятности наблюдений сущ прил глаг -ные -чки -ают

MEMM Обучение: Восстановление условного распределения P(y t+1 |y t, x) Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии Y t-1 YtYt Y t+1 X t-1 XtXt X t+1

MEMM: признаки наличие у текущего слова фиксированного трехбуквенного окончания, тег, приписанный предыдущему слову, наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, наличие предлога в окрестности текущего слова, согласованность по роду/числу/падежу с двумя предыдущими словами.

Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

Деление выборки на обучающую и тестирующую: Кросс-валидация (5 фолдов): Деление выборки на 5 частей: 4 обучающие + 1 тестирующая 5 серий подсчётов Усреднение результата

Оценка качества Определение верхней и нижней границы: Верхняя граница: процент случаев, когда среди гипотез Mystemа есть правильная; Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: общая точность точность по знакомым словам точность по незнакомым словам Не учитывались: Инициалы, аббревиатуры, цифры; Сложные слова с дефисом (ср. бело-кремовый)

Результаты POSтеги Общ.Зн.Незн.Общ.Зн.Незн. Нижн.гр HMM MEMM Верхн.гр С модифицированным набором частей речи Нижн.гр HMM MEMM Верхн.гр

Выводы POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: Местоимения Имена собственные Субстантивация прилагательных Омонимия падежных форм (номинатив vs. аккузатив) Изменение набора частей речи почти не влияет на результат

Дальнейшие направления исследования HMM второго порядка Эксперименты с признаками MEMM CRF Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества

Спасибо за внимание!