Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН kozerenko@mail.ru.

Презентация:



Advertisements
Похожие презентации
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Advertisements

Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Языконезависимое определение авторства текста на базе языковых моделей символьного уровня.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста.
М.Ю. Харламов, ВНУ им. В.Даля, Алфавит (словарь) V Алфавит (словарь) V– это непустое конечное множество элементов (символов) Цепочка в алфавите.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
М.Ю. Харламов, ВНУ им. В.Даля, Генерация объектного кода это перевод компилятором внутреннего представ­ления исходной программы в цепочку символов.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Связь правовой информатики с другими науками 1. Кибернетика Семиотика Лингвистика Когнитивная психология Теория информации Информациология 2.
СРЕДСТВА РЕАЛИЗАЦИИ ИНСТРУМЕНТАЛЬНОЙ ОБОЛОЧКИ ДЛЯ СОЗДАНИЯ ЭКСПЕРТНЫХ СИСТЕМ, ОСНОВАННОЙ НА ГРАММАТИЧЕСКОМ ПОДХОДЕ.
КЛАССИФИКАЦИЯ ГРАММАТИК И ЯЗЫКОВ ( КЛАССИФИКАЦИЯ ХОМСКОГО ) Рейн Т. С.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Введение в теорию компиляции Основные принципы построения трансляторов.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
ЛЕКЦИЯ 13. Курс: Проектирование систем: Структурный подход Каф. Коммуникационные и системы, Факультет радиотехники и кибернетики Московский физико-технический.
Транксрипт:

Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН

Лингвистические знания в системах машинного перевода Моделирование внутренних логико- семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализацииМоделирование внутренних логико- семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализации Методы разрешения неоднозначности языковых структур на основе условных правилМетоды разрешения неоднозначности языковых структур на основе условных правил

Машинное обучение Истоки метода: алгоритмы распознавания речи и символов, коррекция орфографииИстоки метода: алгоритмы распознавания речи и символов, коррекция орфографии Цель: автоматический вывод модели для некоторой области на основании выборки данных из этой областиЦель: автоматический вывод модели для некоторой области на основании выборки данных из этой области Системе, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обученияСистеме, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обучения

Стохастические методы и модели N-граммы, N-граммы переменной длиныN-граммы, N-граммы переменной длины Правило БайесаПравило Байеса Вероятностные контекстно-свободные грамматикиВероятностные контекстно-свободные грамматики Вероятностные грамматики подстановки деревьевВероятностные грамматики подстановки деревьев Вероятностные грамматики подстановки функциональных деревьевВероятностные грамматики подстановки функциональных деревьев

Системы машинного перевода: современное состояние Рынок систем МП достиг зрелости в годахРынок систем МП достиг зрелости в годах Появление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языкаПоявление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языка Вероятностные расширения основных подходов к разработке систем МП, таких какВероятностные расширения основных подходов к разработке систем МП, таких как 1.Прямой перевод 2.Трансфер (перенос) 3.Интерлингва (семантический субстрат) Современные вычислительные ресурсы позволяют использоватьСовременные вычислительные ресурсы позволяют использовать ПЕРЕВОДЧЕСКУЮ ПАМЯТЬ (прецедентные переводы)

Основные классы систем МП 1.Системы с доминированием статистического подхода и автоматическим формированием правил SDLX (SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита SDLX (SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики

2. Системы с доминированием логико- лингвистических эвристик, использующие глубинную семантику и развитые лексико-семантические модели KANT Center for Machine Translation (CMT), Carnegie Mellon University KANT Center for Machine Translation (CMT), Carnegie Mellon University

3. Системы, исходно базирующиеся на гибридной логико- статистической модели Matador: испанско-английский МП Matador: испанско-английский МП 4. Системы – рабочие места переводчиков Наш подход относится к 3-й группе Используется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного переводаИспользуется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного перевода Разрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбораРазрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбора Включение механизмов обучения для формирования новых лингвистических знанийВключение механизмов обучения для формирования новых лингвистических знаний

Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b – это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P.Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b – это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P. Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно- свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно- свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.

Новый синтетический подход к формированию грамматики системы МП семантическое выравнивание структур для ряда европейских языковсемантическое выравнивание структур для ряда европейских языков разрешение неоднозначности с использованием стохастических методовразрешение неоднозначности с использованием стохастических методов усвоение системой новых структур и шаблонов с помощью методов машинного обученияусвоение системой новых структур и шаблонов с помощью методов машинного обучения