Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе.

Презентация:



Advertisements
Похожие презентации
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Advertisements

Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН
Результаты проверки качества образования МЦКО в учебном году Стартовая диагностика Метапредметные умения 20 сентября «А» класс 10 «А»
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Вычислите, укажите правильный ответ
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Результаты ЕГЭ по русскому языку: Школа – 68,03 Город – 65,21 Край – 62,98 2 место среди школ города Высший балл – 98.
1 Основы работы в интерфейсе Яндекс.Директ Практическое пособие Екатеринбург, 2011.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Тренажёр по математике 2 класс Здравствуйте, ребята. Мы смайлики. Мы решили совершить путешествие по материкам нашей планеты. Мы решили совершить путешествие.
Результаты ЕГЭ выпускников 11-го класса Количество сдававших Русский язык % % Русский язык % % Математика % 53.
РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
Отделение ПФР по Тамбовской области Проведение кампании по повышению пенсионной грамотности молодежи в Тамбовской области в 2011 году 8 февраля 2012 г.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
Матемтааки ЕТ СТ 2 класс Шипилова Наталия Викторовна учитель начальных классов, ВКК Шипилова Наталия Викторовна учитель начальных классов, ВКК.
Итоги ГИА-9 Предмет2008/092009/ /11 Русский язык 65%73%59% Округ57%60%76,5% Математика55%75% 76,7% Округ 68%75%68%
Редактирование это изменение содержания документа.
М.Ю. Харламов, ВНУ им. В.Даля, Генерация объектного кода это перевод компилятором внутреннего представ­ления исходной программы в цепочку символов.
Транксрипт:

Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе

План 1.Зачем? 2.Что и куда? 3.Как? 4.Ну и как?

Зачем? Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод

Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно? Wer sind Sie und was möchte ich von Sie?

Пример (из «Вавилонского разговорника») Кто Вы такой, и что мне от Вас нужно ? Wer sind Sie und was möchte ich von Sie ?

Phrase-based модели часто правильно обрабатывают «локальные» перестановки

Перестановки в phrase table sind Sie Вы такой мне от вас нужно möchte ich von Sie У коротких фраз больше вероятность встретиться в параллельном корпусе. vs.

Distortion (post-reordering) Позволяет переставлять фразы при переводе (по языковой модели) Сильно замедляет процесс перевода Плохо учитывает «окружающие» конструкции (например, ne … pas)

Что и куда? Pre-reordering (preordering) Куда? Типы моделей

Preordering Идея – поменять порядок слов до перевода Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV) Улучшает автоматические выравнивания (GIZA++) When you reach my age, you will not look as good. When my age you reach, look as good you will not.

Куда? Предложение c изменённым порядком слов Предложение c изменённым порядком слов Перевод reordering Перевод Предложение c изменённым порядком слов Предложение c изменённым порядком слов Параллельное предложение Обучение

Типы моделей Модели перестановок Синтаксические На основе внешнего парсера С «ручными» правилами С обучением правил Со встроенным парсером Лексические

Как? Описание модели Обучение Декодирование

Немного про индийский кинематограф series binding require skill much does not.

Описание модели: синхронные контекстно-свободные грамматики [S] [NP;1] [VP;2] [X] [X;1] [X;2] Были придуманы для компиляторов Используются в синтаксическом SMT, а также для построения семантических зависимостей

Обучение Как?

Дерево как набор помеченных отрезков Согласованный Несогласованный

Согласованность в выравнивании

Извлечение правил

Реализация Основной инструмент – утилиты фреймворка Moses: extract и score Модель языка – IRSTLM

Декодирование Как?

Алгоритм Кока-Янгера-Касами (CYK) Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы» Начинаем с однословных групп Увеличиваем размер групп динамическим программированием

Построение гипотез NNVBGVBZRBVBJJNN. NPXXXX X XXXXVPX XXXXX XX X XXX XX S s e r i e s b i n d i n g d o e s n o t r e q u i r e m u c h s k i l l. Гипотеза 1Гипотеза 2

Правило склейки (gluing)

Реализация Chart decoder – имеет реализацию в Moses Вывод пословного выравнивания Настройка весов – MERT или batch-MIRA

Ну и как? Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду Использовали данные RSMT12. Baseline: не менять порядок слов Соревновались с двумя другими командами

Метрики 1.BLEU 2.Kendall τ-distance 3.Расстояние Хэмминга

Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.56/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51

Лексические модели TSP (задача коммивояжёра) –A Word Reordering Model For Improved Machine Translation (Visweswariah et al., 2011)

Результаты (BLEU/Hamming/Kendall) СистемаEng-FarEng-ItaEng-Urdu Baseline50.0/0.42/ /0.71/ /0.27/0.49 Dlougach & Galinskaya65.6/0.55/ /0.77/ /0.43/0.59 Gupta et al.55.7/0.43/ /0.75/ /0.31/0.51 Visweswariah et al.68.7/0.58/ /0.82/ /0.507/0.643

Яков Длугач Бригадир Спасибо