Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе
План 1.Зачем? 2.Что и куда? 3.Как? 4.Ну и как?
Зачем? Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод
Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно? Wer sind Sie und was möchte ich von Sie?
Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно ? Wer sind Sie und was möchte ich von Sie ?
Phrase-based модели часто правильно обрабатывают «локальные» перестановки
Перестановки в phrase table sind Sie Вы такой мне от вас нужно möchte ich von Sie У коротких фраз больше вероятность встретиться в параллельном корпусе. vs.
Distortion (post-reordering) Позволяет переставлять фразы при переводе (по языковой модели) Сильно замедляет процесс перевода Плохо учитывает «окружающие» конструкции (например, ne … pas)
Что и куда? Pre-reordering (preordering) Куда? Типы моделей
Preordering Идея – поменять порядок слов до перевода Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV) Улучшает автоматические выравнивания (GIZA++) When you reach my age, you will not look as good. When my age you reach, look as good you will not.
Куда? Предложение c изменённым порядком слов Предложение c изменённым порядком слов Перевод reordering Перевод Предложение c изменённым порядком слов Предложение c изменённым порядком слов Параллельное предложение Обучение
Типы моделей Модели перестановок Синтаксические На основе внешнего парсера С «ручными» правилами С обучением правил Со встроенным парсером Лексические
Как? Описание модели Обучение Декодирование
Немного про индийский кинематограф series binding require skill much does not.
Описание модели: синхронные контекстно-свободные грамматики [S] [NP;1] [VP;2] [X] [X;1] [X;2] Были придуманы для компиляторов Используются в синтаксическом SMT, а также для построения семантических зависимостей
Обучение Как?
Дерево как набор помеченных отрезков Согласованный Несогласованный
Согласованность в выравнивании
Извлечение правил
Реализация Основной инструмент – утилиты фреймворка Moses: extract и score Модель языка – IRSTLM
Декодирование Как?
Алгоритм Кока-Янгера-Касами (CYK) Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы» Начинаем с однословных групп Увеличиваем размер групп динамическим программированием
Построение гипотез NNVBGVBZRBVBJJNN. NPXXXX X XXXXVPX XXXXX XX X XXX XX S s e r i e s b i n d i n g d o e s n o t r e q u i r e m u c h s k i l l. Гипотеза 1Гипотеза 2
Правило склейки (gluing)
Реализация Chart decoder – имеет реализацию в Moses Вывод пословного выравнивания Настройка весов – MERT или batch-MIRA
Ну и как? Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду Использовали данные RSMT12. Baseline: не менять порядок слов Соревновались с двумя другими командами
Метрики 1.BLEU 2.Kendall τ-distance 3.Расстояние Хэмминга
Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.56/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51
Лексические модели TSP (задача коммивояжёра) –A Word Reordering Model For Improved Machine Translation (Visweswariah et al., 2011)
Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.6/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51 Visweswariah et al.68.7/0.58/ /0.82/ /0.507/0.643
Яков Длугач Бригадир Спасибо