Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова. - презентация

Презентация на тему: " Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова." — Транскрипт:

1 Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова

2 Морфологическая разметка Начальная форма (лемма) грамматические характеристики Я иду по улице. Улице: lex=улица gr=S,f,sg,dat набор тегов

3 Автоматический морфологический анализ Мама мыла раму lex=«мыть» gr=V,act,f,indic,ipf,norm,praet,sg,tran lex=«мыло» gr=S,inan,n,nom,norm,pl lex=«мыло» gr=S,gen,inan,n,norm,sg lex=«мыло» gr=S,acc,inan,n,norm,pl задача выбора правильного варианта (дизамбигуация)

4 Дизамбигуация в текстах на английском языке Методы: Как правило, статистические алгоритмы на основе марковских моделей Точность: ~96%

5 Особенности английского языка Бедная морфология морфологическая разметка фактически сводится к POS-теггингу Фиксированный порядок слов можно опираться только на локальный контекст слова (ближайших соседей) без учёта дальних зависимостей (т.е. достаточно марковских моделей первого порядка)

6 Задача исследования: Проверить экспериментально, применимы ли статистические алгоритмы, основанные на марковских моделях, к задаче морфологической дизамбигуации текстов на русском языке

7 Параметры эксперимента Корпус: подкорпус НКРЯ со снятой омонимией (~6 млн словоупотреблений) Морфологический анализатор: Mystem 4 серии экспериментов (2 по 2): Набор частей речи – как в НКРЯ: Только POS POS, род, число, падеж, лицо, наклонение, время Изменённый набор частей речи: Только POS POS, род, число, падеж, лицо, наклонение, время 2 алгоритма: HMM и MEMM До (серия 1)После (серия 2) Существительное Местоименное существительное ПрилагательноеПрилагательное (полное) Местоименное прилагательное Глагол Наречие Местоименное наречие ПредикативНаречие Вводное словоНаречие Предлог Союз Междометие Частица Причастие (полное) Причастие (краткое) Прилагательное (краткое) Деепричастие

8 Алгоритмы Набор скрытых величин Y (состояний модели = наборов грамматических тегов); составляют марковскую цепь первого порядка Набор наблюдаемых величин X (наблюдений) ~ словоформ Словоформы заменяем на 3-буквенные окончания: Сокращаем количество наблюдаемых состояний Практически не теряем полезную информацию (поскольку в РЯ почти вся морфологическая информация сосредоточена в окончании)

9 HMM Обучение: Сбор статистик по корпусу: P(y i |y j ) – матрица переходов P(x k |y i ) – вероятности наблюдений сущ прил глаг -ные -чки -ают

10 MEMM Обучение: Восстановление условного распределения P(y t+1 |y t, x) Сбор по корпусу некоторых статистик (=признаков) + применение принципа максимальной энтропии Y t-1 YtYt Y t+1 X t-1 XtXt X t+1

11 MEMM: признаки наличие у текущего слова фиксированного трехбуквенного окончания, тег, приписанный предыдущему слову, наличие у текущего слова фиксированного разбора, выданного морфологическим анализатором, наличие предлога в окрестности текущего слова, согласованность по роду/числу/падежу с двумя предыдущими словами.

12 Задача алгоритмов: Вычисление наиболее вероятной последовательности скрытых величин

13 Деление выборки на обучающую и тестирующую: Кросс-валидация (5 фолдов): Деление выборки на 5 частей: 4 обучающие + 1 тестирующая 5 серий подсчётов Усреднение результата

14 Оценка качества Определение верхней и нижней границы: Верхняя граница: процент случаев, когда среди гипотез Mystemа есть правильная; Нижняя: «частотная снималка» (слову приписывается наиболее частотный вариант разбора, без учёта контекста) Качество работы алгоритма (= точность): Сравнение с «золотым стандартом» - с эталонным разбором НКРЯ: общая точность точность по знакомым словам точность по незнакомым словам Не учитывались: Инициалы, аббревиатуры, цифры; Сложные слова с дефисом (ср. бело-кремовый)

15 Результаты POSтеги Общ.Зн.Незн.Общ.Зн.Незн. Нижн.гр HMM MEMM Верхн.гр С модифицированным набором частей речи Нижн.гр HMM MEMM Верхн.гр

16 Выводы POS-теггинг – на приличном уровне, причём MEMM чуть лучше, чем HMM Дизамбигуация по расширенным тегам – довольно низкий уровень точности. Случаи, особенно часто разбираемые ошибочно: Местоимения Имена собственные Субстантивация прилагательных Омонимия падежных форм (номинатив vs. аккузатив) Изменение набора частей речи почти не влияет на результат

17 Дальнейшие направления исследования HMM второго порядка Эксперименты с признаками MEMM CRF Возможно, ввод локальных правил Конечная цель: Создание открытого инструмента достаточно высокого качества

18 Спасибо за внимание!

Скачать бесплатно презентацию на тему "Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова." в формате .ppt (PowerPoint)

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Анализ статистических алгоритмов снятия морфологической омонимии в русском языке Егор Лакомкин Иван Пузыревский Дарья Рыжова. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь