Системы автоматического (машинного) перевода текста.

Презентация:



Advertisements
Похожие презентации
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Advertisements

Методы тестирования Впрактике тестирования используются методы: статический, детерминированный, стохастический ивреальном масштабе времени. Статическое.
Этапы решения задач на компьютере.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Введение в теорию компиляции Основные принципы построения трансляторов.
Этапы решения задач на компьютерах Постановка задачи Формальное построение модели задачи Формальное построение модели задачи Построение математической.
Что такое программирование? Совокупность процессов, связанных с разработкой программ и их реализацией. В широком смысле к указанным процессам относят все.
М.Ю. Харламов, ВНУ им. В.Даля, Генерация объектного кода это перевод компилятором внутреннего представ­ления исходной программы в цепочку символов.
М.Ю. Харламов, ВНУ им. В.Даля, Семантический анализатор Семантический анализатор выполняет следующие основные действия: проверку соблюдения во входной.
Язык высокого уровня компилятор Программа компиляторов Сделал:Студент группы:Ис-2о(очная)Воротов Валентин.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Основы построения телекоммуникационных систем и сетей Лекция 15 «Методы прогнозирования» профессор Соколов Н.А.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Язык и стиль научной речи. Лексический уровень важно передать один, и только один смысл; эмоциональная нагруженность слова - недостаток, мешающий пониманию.
Физические модели баз данных Файловые структуры, используемые для хранения информации в базах данных.
Лекция 6. Способы адресации в микропроцессорных системах.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Алгоритм называется частичным алгоритмом, если мы получаем результат только для некоторых d є D и полным алгоритмом, если алгоритм получает правильный.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Система оптического распознавания документа. Системы оптического распознавания символов При coздании электронных библиотек и архивов путем перевода книг.
Транксрипт:

Системы автоматического (машинного) перевода текста

Автоматический(машинный) перевод Машинный перевод–выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия.

История машинного перевода 1947 г. – первый документ, описывающий возможность применения ЭВМ для перевода г. – демонстрация первой системы машинного перевода. Словарный запас 250 слов, перевод 60 отобранных предложений с русского языка на английский г. – финансирование многих разработок прекращено на основании негативного отчета комитета, созданного в США для оценки эффективности МП е гг. – новый подъем интереса к системам МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов е гг. – складывается рынок коммерческих продуктов. Связанно с ростом международных связей, распространением и удешевлением персональных ЭВМ. Машинный перевод наконец-то стал экономически выгодным е гг. – программы машинного перевода начинают использовать новые технологии, качество повышается, появление онлайн-сервисов.

Советские системы МП гг. В СССР с середины 70-х годов были созданы промышленные системы МП: АМПАР (английский русский); НЕРПА (немецкий русский); ФРАП (французский русский); АСПЕРА (русский английский). Автоматические терминологические словари.

Развитие современных систем МП В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout& Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., Lingo Ware; Ata Software; Lingvistica b.v. и др.

Преимущества машинного перевода Доступ к услуге. Низкая стоимость. Высокая скорость. Конфиденциальность. Универсальность. Перевод информации в Интернете. Единообразие стиля и используемой терминологии.

Шаги алгоритма компьютерного перевода Шаг 1. Получение исходного текста из файла или из буфера в памяти. Шаг 2. Определение границ предложения и разбиение предложения на слова. Шаг 3. Морфологический анализ исходного текста – получение всех возможных лексических кодов для каждого найденного в словаре слова. Шаг 4. Синтаксический анализ исходного текста – группировка прилагательных и существительных, построение дерева главных/зависимых слов. Шаг 5. Семантический анализ исходного текста. Шаг 6. Осуществление перевода построенного дерева. Шаг 7. Осуществление согласования переведенного дерева – семантический, синтаксический и морфологический синтез. Шаг 8. Запись переведённого предложения в файл или в буфер.

Шаг 2 Разбиение текста на предложения и слова. Распознавание слов ведется с помощью специальных шаблонов. Данные шаблоны описывают различные буквенные, цифровые и буквенно-цифровые группы и символы пунктуации, которые затем будут выделяться в качестве отдельных слов. Например, как отдельные слова будут выделены даты, записанные в их цифровом выражении, номера параграфов и подпараграфов, сокращений вместе с точками (по специальному словарю), а также слова, написанные через дефис в случае.

Шаг 3 Морфологический анализ Решение данной задачи базируется на словаре исходного языка. В результате поиска по словарю каждому слову предложения приписывается множество лексико- грамматических классов: часть речи, падеж, число, род, категория и т.д., что позволяет в дальнейшем производить сравнение классов, основанное на определенных характеристиках (например, проверять согласование прилагательных и существительных). На этапе распознавания классов производится также выделение словосочетаний, которые, согласно словарю, переводятся одним словом (словарь идиом): по барабану, зайти в тупик, kick the bucket (дословно – пнуть ведро, сыграть в ящик). Далее считается, что все такие словосочетания представляются одним словом. Это гарантирует правильность согласования и перевода словосочетания как единого целого. Далее на этом этапе происходит нормализация слов с целью их подготовки для поиска по словарю.

Шаг 4 Синтаксический анализ. Сначала для каждого слова производится поиск главного слова, с которым оно должно быть согласовано в результате перевода. В процессе поиска главных слов производится частичное снятие многозначности. Далее производится Построение синтаксического дерева путем последовательного распознавания лингвистических шаблонов посредством проведения определенных операций. Таковыми являются: а) проверка, является ли слово определенной частью речи с конкретными характеристиками (например, является ли слово существительным в родительном падеже); б) проверка, является ли некоторое слово омонимом, т.е. может ли оно принадлежать к разным частям речи (например, течь); в) проверка согласования двух слов (полное согласование –прилагательное-существительное, согласование по падежу –существительное-существительное и т.д.): красивая девушка, Татьяна Иванова;

Шаг 5 Семантический анализ исходного текста. Основная задача данного этапа – разрешение многозначности на основе полученного дерева зависимостей. Для этого первоначально производится разрешение многозначности базовых слов. После того, как всем базовым словам поставлен в соответствие один лексико-грамматический класс, производится до согласование зависимых от них слов. Параметры выбора лексико-грамматических классов зависимых слов выбираются согласно типу зависимости и лексико-грамматическому классу главного слова. Производится получение семантических характеристик слов, которые основываются на двух принципах: 1) на принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, программа может различить эквиваленты глагола to bookи существительного book (соответственно, резервировать и книга). 2) на принципе выбора эквивалента по семантической модели. По разным семантическим моделям программа, например, может различать такие эквиваленты слова solution как решение и раствор.

Шаг 6 Осуществление перевода построенного дерева. Процесс перевода построенного дерева основывается на следующих процедурах: а) производится пословный перевод базовых слов дерева зависимостей с сохранением оригинального лексико-грамматического класса; б) для зависимых слов результатом перевода является множество слов, которое определяется на основе типа зависимости и лексико-грамматических классов главных слов – окончательные лексические характеристики определяются на этапе синтеза. Также на этом шаге производится анализ слов, результатом перевода которых является словосочетание. В результате перевода словосочетание должно быть согласованным. Для этого, при обнаружении данной ситуации, производится достраивание дерева зависимостей на основе главных слов словосочетаний.

Шаг 7 Осуществление согласования переведенного дерева. В результате перевода получается частично согласованное дерево зависимостей. Для получения полного согласования достаточно использовать разрешения многозначности, но уже для слов на конечном языке. Так как перевод осуществлялся на основе дерева зависимостей, то данная процедура позволит получить согласованное представление предложения на результирующем языке. Далее на основе дерева производится построение результирующего предложения. Для этого для каждого слова в словаре результирующего языка производится поиск с целью получения конкретной словоформы, соответствующей зафиксированному лексико- грамматическому классу. Также производится дополнение получившихся слов переводами приставок, если они были удалены из исходного слова при анализе.

Качество систем МП Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения.

Недостатки современных систем МП На данном этапе развития машинного перевода пока еще остались не разрешенными его основные проблемы. Наибольшее число трудностей при переводе и соответственно ошибок при переводе относится к уровню грамматики. Средства машинного перевода пока не могут улавливать все смысловые нюансы оригинального текста. Текст получившийся с применением машинного перевода не всегда полностью соответствует тексту-оригиналу, вследствие того что фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны эффективные модели формального представления смысла.

Выводы Как видно из всего сказанного выше, практические проблемы, возникающие при применении автоматического оборудования для перевода с одного языка на другой разнообразны и сложны. Однако это ни в какой мере не должно снижать интереса к развитию данной области техники. Прогресс не стоит на месте, и с увеличением быстродействия процессоров и ростом объема оперативной памяти постепенно повышается и качество машинного перевода. Конечная цель - создать такую машину, которая давала бы достаточно правильный перевод, не нуждающийся в последующем редактировании. А пока еще машинный перевод нуждается в обязательном редактировании. Наиболее перспективным направлением развития систем машинного перевода является совершенствование подсистем грамматического анализа и синтеза, а также увеличение объема контекстуального охвата текста и совершенствование семантических цепочек с целью более точного подбора значений слов.

Спасибо за внимание!!!