ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург) lauranbel@gmail.com.

Презентация:



Advertisements
Похожие презентации
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Advertisements

Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте.
Методы тестирования Впрактике тестирования используются методы: статический, детерминированный, стохастический ивреальном масштабе времени. Статическое.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Информационно-поисковая система. Классификация информационно- поисковых систем.
Администрирование системы Администрирование системы и баз данных. и баз данных. Адаптация системы к Адаптация системы к требованиям пользователей. требованиям.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
1 Лекция 14. Стратегический контроллинг Элементы системы стратегического контроллинга Установление показателей стратегического контроллинга.
Теория систем и системный анализ Тема1 «Системные исследования. Теория систем»
«Мировые информационные ресурсы» Кафедра «Сетевой экономики и мировых информационных ресурсов» Селетков Сергей Николаевич.
1 ТЕМА 5. Стадии проектирования и реализации ИС. Лекция 18. Разработка форм первичных и результатных документов.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
ОСНОВЫ ТЕХНОЛОГИИ РАЗРАБОТКИ ПРОГРАММ. Разработка программ - промышленное производство необходима технология разработки программ. Д. Кнут «Искусство программирования.
Транксрипт:

ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)

Применение информационных технологий в переводной лексикографии – создание и использование современной словарной базы Традиционные словари, представленные в электронной форме – словари на электронных носителях Электронные словари, создаваемые и используемые в электронной форме Автоматизированные словари (терминологические базы и банки данных, автоматизированные лексикографические системы), Автоматические словари (словари систем переработки информации)

Современный подход к созданию переводных словарей предполагает формирование и использование представительных корпусов реальных текстов, которые могут рассматриваться как база данных для решения не только исследовательских задач, но и практических задач лексикографии.

Для решения задач переводной лексикографии необходим корпус текстов - совокупность исходных и переводных документов, параллельный: состоящий из текстов и их переводов, выровненных по предложениям и/или лексическим единицам и специально размеченных, псевдопараллельный (сопоставимый, comparable): состоящий из текстов написанных на одну тему, но на двух разных языках

Процедура создания корпуса текстов для лексикографического анализа Определение типа корпуса: Параллельный корпус текстов Сопоставимый корпус текстов Установление принципов отбора текстов Оценка качества переводов экспертами: Последовательность использования номинаций Соблюдение норм языка перевода Сохранение логической структуры текста

Процедура работы лексикографа с одноязычным корпусом статистическая обработка текстов и построение конкорданса, выделение терминов из текстов, Для английского языка выбор простых именных групп с опорой на формальные границы: theoretical and experimental investigations of support-pendulum seismic isolation (SPSI) system, designed for protection of large NPP equipment against seismic, shock and vibration loads.

Процедура работы лексикографа с одноязычным корпусом выделение терминов из текстов, Для русского языка необходим дополнительный анализ общенаучных ЛЕ, анализ изменения косвенных падежей построение соответствующих различным конструктивным параметрам семейства силовых характеристик упругопластических демпферов построение семейства силовых характеристик, соответствующих различным конструктивным параметрам упругопластических демпферов построение упругопластических демпферов, соответствующих различным конструктивным параметрам семейства силовых характеристик

Процедура работы лексикографа с одноязычным корпусом статистическая обработка текстов и построение конкорданса, выделение терминов из текстов, получение статистических данных о встречаемости терминов в обрабатываемых текстах, просмотр конкорданса, просмотр выделенных лексических единиц по заданным параметрам контекстного окна, автоматическое пополнение словаря, построение онтологии.

Работа с параллельным корпусом текстов Выравнивание текстов с учетом необходимости установления единиц перевода Выравнивание текстов по предложениям и выделение коллокаций Оценка терминологичности коллокаций и отдельных слов (termhood) Выравнивание по коллокациям

Выравнивание текстов по предложениям представляет собой сложную задачу, часто с множественными решениями, возникающими в результате: неоднозначности решения задачи сегментации текста на предложения; несовпадения деления входного и выходного текстов на предложения, возникающего при ручном переводе текстов.

Работа с сопоставимым корпусом текстов Установление коллокаций на каждом из языков (unithood) Оценка терминологичности коллокаций и отдельных слов (termhood) Выравнивание по коллокациям и отдельным словам

Выявление и анализ лексических единиц для включения в словарь получение статистических данных о встречаемости лексических единиц в одноязычных корпусах текстов, сравнение их с данными национальных языков в целом, принятие решения о терминологичности выделенных единиц в одноязычных корпусах, установление условной эквивалентности терминологических лексических единиц из корпусов текстов на разных языках; формирование массивов переводных эквивалентов

European Project: Terminology Extraction, Translation Tools and Comparable Corpora

Благодарю за внимание