Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.

Презентация:



Advertisements
Похожие презентации
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Advertisements

ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Функции знаков препинания. Слайд-1 Образец текста Второй уровень Третий уровень Четвертый уровень Пятый уровень.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Памятки Русский язык 2 класс. Признаки предложения 1.Предложение состоит из слов. 2.Предложение выражает законченную мысль. 3.Первое слово в предложении.
Понятие алгоритма и его свойства. Этапы решения задачи с использованием компьютера 1. Постановка задачи; 2. Определение условий; 3. Построение модели.
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова.
Задание. Построить графики функций y=Sin x и y=|Sin x + 3 для всех х на интервале [-360; 360] с шагом Использование графических возможностей Excel.
Редактирование это изменение содержания документа.
Тезаурусы. Использование систем двуязычного перевода и электронных словарей.
Онлайн-словари и переводчики (английский язык). Англо-русские (русско-английские) электронные словари.
Об особенностях внутришкольного управления формированием рабочих программ Покачалова Н. Д., заместитель директора по УВР МБОУ СОШ 51.
Стандарт IDEF1X Рассмотрим методологию IDEF1X. Методология IDEF1X представляет собой формализованный язык семантического (контекстного) моделирования данных,
Транксрипт:

Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор Владимирович

Постановка задачи Есть корпус текстов на английском языке, относящихся к некоторой предметной области. Для каждого текста есть перевод на русский язык. Требуется построить (пополнить) англо- русский словарь терминов для данной предметной области.

Подход к решению Суть алгоритмов: последовательное разбиение и анализ парных текстов, нахождение соответствий между семантическими единицами в парных текстах. Алгоритмы не используют специфических особенностей английского и русского языков.

Подзадачи 1. Разбивка текста на предложения 2. Сопоставление предложений и их переводов 3. Пополнение словаря

1. Разбивка текста на предложения Цель: Каждые текст и его перевод разбить на отдельные предложения. Алгоритм последовательно идентифицирует концы предложений, используя знаки препинания и другие ориентиры. распознается корректно более 95%

2. Сопоставление предложений и их переводов Цель: каждому предложению из текста сопоставить его перевод. Предположение о монотонности перевода Последовательно маркируем предложения на английском языке и соответствующие им русские. На следующем шаге переходим к рассмотрению упорядоченных списков между соответствующими маркерами. сопоставляется от 30 до 70 % предложений

2. Сопоставление предложений и их переводов Основные признаки соответствия предложений: Непереведённые слова и группы символов формулы, переменные, названия, числа, даты, имена файлов и т.д. Однозначно переводимые слова имена людей, названия и другие имена собственные; аббревиатуры; термины данной предметной области. Знаки препинания восклицательный и вопросительный знаки, цитирование, прямая речь.

3. Пополнение словаря Цель: используя пары (предложение, перевод), создать (пополнить) словарь. Используются статистические методы находится 60 – 65 % терминов из текстов корректность результатов 70 – 80 %

Итерационный характер работы алгоритмов После очередного прохода алгоритмов возвращаемся к шагу 2 («Сопоставление предложений и их переводов»), используя словарь терминов для предметной области, построенный на предыдущем шаге.

Дальнейшая работа Автоматическое выделение словосочетаний. Учёт разметки документов в алгоритмах сопоставления предложений. Автоматическое удаление общелексических терминов из построенного словаря. Построение онтологий для предметных областей.

Спасибо за внимание!