Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемВалентина Варлова
2 Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе
3 План 1.Зачем? 2.Что и куда? 3.Как? 4.Ну и как?
4 Зачем? Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод
5 Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно? Wer sind Sie und was möchte ich von Sie?
6 Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно ? Wer sind Sie und was möchte ich von Sie ?
7 Phrase-based модели часто правильно обрабатывают «локальные» перестановки
8 Перестановки в phrase table sind Sie Вы такой мне от вас нужно möchte ich von Sie У коротких фраз больше вероятность встретиться в параллельном корпусе. vs.
9 Distortion (post-reordering) Позволяет переставлять фразы при переводе (по языковой модели) Сильно замедляет процесс перевода Плохо учитывает «окружающие» конструкции (например, ne … pas)
10 Что и куда? Pre-reordering (preordering) Куда? Типы моделей
11 Preordering Идея – поменять порядок слов до перевода Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV) Улучшает автоматические выравнивания (GIZA++) When you reach my age, you will not look as good. When my age you reach, look as good you will not.
12 Куда? Предложение c изменённым порядком слов Предложение c изменённым порядком слов Перевод reordering Перевод Предложение c изменённым порядком слов Предложение c изменённым порядком слов Параллельное предложение Обучение
13 Типы моделей Модели перестановок Синтаксические На основе внешнего парсера С «ручными» правилами С обучением правил Со встроенным парсером Лексические
14 Как? Описание модели Обучение Декодирование
15 Немного про индийский кинематограф series binding require skill much does not.
16 Описание модели: синхронные контекстно-свободные грамматики [S] [NP;1] [VP;2] [X] [X;1] [X;2] Были придуманы для компиляторов Используются в синтаксическом SMT, а также для построения семантических зависимостей
17 Обучение Как?
18 Дерево как набор помеченных отрезков Согласованный Несогласованный
19 Согласованность в выравнивании
20 Извлечение правил
21 Реализация Основной инструмент – утилиты фреймворка Moses: extract и score Модель языка – IRSTLM
22 Декодирование Как?
23 Алгоритм Кока-Янгера-Касами (CYK) Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы» Начинаем с однословных групп Увеличиваем размер групп динамическим программированием
24 Построение гипотез NNVBGVBZRBVBJJNN. NPXXXX X XXXXVPX XXXXX XX X XXX XX S s e r i e s b i n d i n g d o e s n o t r e q u i r e m u c h s k i l l. Гипотеза 1Гипотеза 2
25 Правило склейки (gluing)
26 Реализация Chart decoder – имеет реализацию в Moses Вывод пословного выравнивания Настройка весов – MERT или batch-MIRA
27 Ну и как? Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду Использовали данные RSMT12. Baseline: не менять порядок слов Соревновались с двумя другими командами
28 Метрики 1.BLEU 2.Kendall τ-distance 3.Расстояние Хэмминга
29 Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.56/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51
30 Лексические модели TSP (задача коммивояжёра) –A Word Reordering Model For Improved Machine Translation (Visweswariah et al., 2011)
31 Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.6/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51 Visweswariah et al.68.7/0.58/ /0.82/ /0.507/0.643
32 Яков Длугач Бригадир Спасибо
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.