ПОДХОД К РАЗРАБОТКЕ РУССКО- АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт.

Презентация:



Advertisements
Похожие презентации
О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики.
Advertisements

Вспомогательные средства в работе переводчика Автор презентации Кокорева Инга.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Представление предметной области. Методы представления предметной области. Модель сущность-связь. Инфологическое описание предметной области.
Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
Информационные технологии Тема урока: Информационные технологии. Цель и инструментарий. Авторы презентации: учитель информатики высшей категории Дунаева.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Серия образовательных мультимедийных продуктов – «УРОКИ КИРИЛЛА И МЕФОДИЯ» Виртуальная школа Кирилла и Мефодия.
Лекция 3 Архитектура информационных систем. Вопросы лекции 1. Архитектура информационной системы 2. Архитектурный подход к реализации информационных систем.
Теория экономических информационных систем Семантические модели данных.
Основные элементы системы управления базами данных Access.
Специальность «Информационные системы и технологии» шифр Учебная дисциплина «Управление данными» Лекция 1 ВВЕДЕНИЕ В БАЗЫ ДАННЫХ 1 Основные понятия,
От сложного – к простому. От непонятного – к понятному.
Университетская информационная система РОССИЯ ( УИС РОССИЯ ) Режим доступа:
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Транксрипт:

ПОДХОД К РАЗРАБОТКЕ РУССКО- АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва Москва

Текущее положение Наблюдается значительный интерес к компьютерной лингвистике (КЛ), как к прикладной научной дисциплине, включающей знания о методах извлечения информации из текстов, индексирования и содержательного поиска документов, построения естественно- языковых, в том числе речевых, интерфейсов. Возникла острая потребность в систематизированных знаниях по терминологии КЛ, которые, с одной стороны, способствовали бы повышению образовательного уровня, а с другой стороны, использовались для индексирования публикаций по КЛ с целью облегчения доступа к представленным в них знаниях по КЛ. Однако в данный момент в КЛ отсутствует четкая и общепринятая система научной терминологии, причем многие термины современной КЛ не представлены на русском языке ни в одном из существующих лингвистических источников.

Текущее положение (сборники терминов) Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука, Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. 39. – М.: ВЦП, Лингвистический энциклопедический словарь. //Под ред. В. Н. Ярцевой. М.:Советская энциклопедия, с. [3 изд ] Ахманова О.С. Словарь лингвистических терминов. – 3-е изд., стер. – М.: УРСС, – 576 с. Онлайн Энциклопедия «Кругосвет»: [ ]. URL: Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н. Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, –256с. Большой энциклопедический словарь (БСЭ) / гл. ред. А.М.Прохоров. - Изд. 2-е, перераб. и доп. – М. : Большая Российская энциклопедия; –– СПб.: Норинт, – 1456 с. Интернет-энциклопедия «Википедия»

Цели разработки Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект в). Главная цель разработки Построить тезаурус по КЛ двойного назначения, т.е. тезаурус, ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.

Цели разработки Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ, Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований. Поддержка решения задач индексирования и информационного поиска. Повышение уровня профессиональной подготовки будущих специалистов в сфере КЛ и информационных технологий Двуязычность тезауруса должна помочь отечественным ученым и специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.

Виды информационно-поисковых тезаурусов (ИПТ) По составу: По языковой направленности:

Для разработки одноязычных ИПТ: Международный стандарт ISO Межгосударственный стандарта ГОСТ Американский стандарт Z Для разработки многоязычных ИПТ: Межгосударственный стандарт ГОСТ Международный стандарт ISO Стандарты для разработки ИПТ

Структура тезауруса Тезаурус включает два типа терминов: дескрипторы (предпочтительные термины) и аскрипторы (остальные термины или текстовые входы), а также источники терминов. Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами. Все дескрипторы снабжены определениями. Термины, связаны между собой семантическими отношениями, отражающими место каждого термина в системе понятий КЛ. Тезаурус включает одновременно две версии – русскоязычную и англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий. Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.

Структура тезаурусных статей Дескриптор: Название термина Релятор Язык термина Определения термина Подобласть знаний Признак корневого термина Комментарий Автор тезаурусной статьи Аскриптор: Название термина Язык термина Комментарий Автор тезаурусной статьи

Отношения между терминами Отношения между дескрипторами: недифференцированная иерархическая связь Выше (Ниже) родовидовая связь ВышеРод (НижеВид) партонимическая связь ВышеЦелое (НижеЧасть) для связи класса понятий и экземпляра этого класса ВышеКлассЭкземпляра (НижеЭкземпляр) произвольная ассоциативная связь Ассоциируется с эквивалентность дескрипторов из разных одноязычных версий Эквивалент на другом языке Отношения между дескрипторами и аскрипторами: Синоним (Смотри) Используй альтернативно (Сравни альтернативный выбор) Используй комбинацию (Сравни комбинацию)

Описание источника терминов Название источника Тип источника Язык источника Описание Библиографическая ссылка URL Количество документов (для коллекции текстов) Количество словоупотреблений (для коллекции текстов) Комментарий Отношения, задающие связи термина с источниками: Встречается в, при которой можно указать частоту встречаемости термина в источнике; Встречается в части документа, с помощью которой отмечается, что данный термин встречается в предметном указателе или глоссарии источника; Дается определение в, позволяет связать термин-дескриптор с источником определения.

Пример описания дескриптора Название термина акцент Релятор просодия Язык термина русский Определение термина 1 Смысловое подчеркивание звуковыми средствами какого либо слога или слова во фразе. Комментарий Многие авторы проводят довольно тонкое разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением. Автор статьи Кривнова О.Ф. Источники термина Книга Трахтерова А.Л. Источники определения термина Книга Трахтерова А.Л. Ниже громкостной акцент, долготный акцент, тональный акцент Синонимы АВ, акцентное выделение, логическое ударение, эмфатическое ударение Эквивалент на другом языке accent(prosody)

Пример описания аскриптора Название термина логическое ударение Язык термина русский Автор статьи Кривнова О.Ф. Источники термина Энциклопедия РЯ Смотри акцент(просодия)

Пример описания документа Название источника Книга Трахтерова А.Л. Тип источника книга Язык источника русский Описание Пособие направлено на повышение научного уровня преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой. Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962

Общий пример Аскриптор ЧМП язык русский автор словарной статьи Кононенко И.С. Встречается аскриптор в Источник Учебник Баранова А.Н. Смотри Дескриптор Человеко-машинный перевод Дескриптор человеко-машинный перевод язык русский определение 1 Системы человеко-машинного перевода выполняют перевод в интерактивном режиме. определение 2 Все методы и системы, автоматизирующие процесс перевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод) автор словарной статьи Кононенко И.С. Встречается дескриптор в Источник Учебник Баранова А.Н. Дается определение в Источник определение 1 Справочник по искусственному интеллекту Источник определение 2 Статья Boitet Выше род Дескриптор машинный перевод Аспект деления иерархии участие человека Ниже вид Дескриптор автоматизированный перевод Дескриптор машинный перевод с участием человека Аспект деления иерархии участие человека Синоним Аскриптор человекомашинный перевод Аскриптор ЧМП Эквивалент на другом языке Дескриптор machine aided translation Дескрипторавтоматизированный перевод язык русский определение 1 Перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. автор словарной статьи Кононенко И.С. Дается определение в Источник определение 1 Интернет энциклопедия «Википедия» Встречается дескриптор в Источник Коллекция текстов Диалог Частота 8 Синоним Аскриптор человеческий перевод с участием машины Выше род Дескриптор человеко-машинный перевод Аспект деления иерархии участие человека Эквивалент на другом языке Дескриптор machine-aided human translation

Пример описания дескриптора Пример описания дескриптора

Пример описания аскриптора Пример описания аскриптора

Пример описания дескриптора Пример описания дескриптора

Пример описания документа

Реализация прототипа электронного тезауруса Для разработки тезауруса по КЛ была использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике. Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска. Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов. Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены и могут меняться в процессе разработки.

Онтология представления знаний – конечное непустое множество классов, описывающих понятия некоторой предметной или проблемной области; – конечное множество бинарных отношений, заданных на классах (понятиях); – множество стандартных типов; – множество доменов ; – конечное множество атрибутов, описывающих свойства понятий C и отношений R A ; – множество ограничений на значений атрибутов понятий и отношений, т.е. предикатов вида ; – множество аксиом, задающих дополнительную семантику классов и отношений онтологии., где

Концептуальная схема тезауруса – конечное непустое множество терминов, представляющих понятия некоторой предметной области; – множество источников терминов; – множество атрибутов, описывающих свойства источников и терминов; – конечное множество отношений, заданных на терминах и источниках терминов; – множество формальных свойств отношений ; – множество аксиом, задающих дополнительные ограничения на связи между терминами., где

Задание структурных единиц тезауруса, отношений и их свойств В редакторе онтологий описывается концептуальная схема тезауруса, в которой определяется структура тезаурусных статей, вид и свойства отношений, задаваемых между терминами, а также характеристики источников терминов и их определений. Для отношений могут быть заданы не только структурные свойства отношений (типы их аргументов и ограничения на существование (число) и обязательность связей), но и формальные (математические) свойства – симметричность, рефлексивность, транзитивность, асимметричность, антирефлексивность, а также обратные отношения. Эти свойства используются встроенными в редактор данных механизмами контроля и вывода для поддержки логической целостности системы понятий тезауруса. В частности, на основе этих свойств происходит корректное установление связей между терминами тезауруса, при необходимости осуществляется их автоматическое добавление и/или удаление.

Обеспечение корректного установления связей между терминами Свойства отношения «Смотри»: - обратное отношение «Синоним», - возможна только одна связь данного типа для каждого термина- аскриптора. Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД) + Синоним (МАШИННЫЙ ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД) Для аскриптора АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет обеспечиваться запрет на создание связей «Смотри» и «Синоним» с другими дескрипторами.

Навигация по контенту тезауруса Удобный доступ к терминам тезауруса обеспечивается пользовательским web-интерфейсом, предоставляемым технологией построения порталов научных знаний. В этом интерфейсе содержимое тезауруса представляется пользователю в виде сети взаимосвязанных информационных объектов – элементов тезауруса: терминов и описаний источников терминов и их определений. При навигации по тезаурусу обеспечивается возможность выбора необходимых пользователю терминов, детального просмотра их описаний (тезаурусных статей), а также источников (публикаций или коллекций текстов), в которых встречается термин и/или его определение.

Навигация по контенту тезауруса

Методика выбора терминов для включения в тезаурус Две проблемы: подбор терминов – кандидатов на включение в тезаурус, выбор терминов-дескрипторов из множеств синонимичных терминов.

Подбор терминов – кандидатов В качестве основного источника русскоязычных терминов была выбрана коллекция текстов докладов, представленных на международной конференции «Диалог» в гг. Для английской части словника, с учетом русско-английской направленности создаваемого тезауруса выбирались переводные эквиваленты из доступных англоязычных источников по КЛ. Чтобы дополнить картину российской части КЛ в тех ее разделах, где имеются пробелы, при сборе терминов по таким разделам пришлось опираться преимущественно на англоязычные источники: в частности, предметные указатели нескольких современных и наиболее авторитетных англоязычных книжных источников обзорно-учебного профиля и глоссарии, входящие в документацию известных звуковых анализаторов.

Выбор основного термина-дескриптора из множества синонимичных терминов Эта проблема связана с появлением новых понятий и соответствующих им терминов. Пример: термин translation memory (в сфере автоматизированного перевода); Практики-переводчики предлагают: память переводов, научное сообщество: переводческая память (синонимический ряд: переводческая память – 8, память переводов – 0, архив переводов – 1, накопитель переводов – 0, копилка переводов – 0).

Выбор основного термина-дескриптора из множества синонимичных терминов Развитие некоторых направлений КЛ привело к столкновению вариантов старых терминов. Так, тезаурус ИНИОН и ЛЭС основным термином в паре автоматический перевод и машинный перевод считают автоматический перевод, присвоив ему статус дескриптора. Однако показатели встречаемости в коллекции «Диалог» говорят в пользу термина машинный перевод: машинный перевод – 318 vs. автоматический перевод – 58. Интернет-энциклопедии «Википедия» и «Кругосвет», а также учебники придерживаются этой же традиции. Таким образом, при выборе терминов дескрипторов мы опирались не только на статистику, но и на традиции словоупотребления, сложившиеся к настоящему времени в лингвистическом научном сообществе.

Текущее состояние Тезаурус включает термины из пяти основных терминологических областей: 1. Автоматическая обработка текста. 2. Речевые технологии. 3. Корпусная лингвистика. 4. Информационный поиск. 5. Машинный перевод. а также термины, которые могут быть отнесены к теоретической компьютерной лингвистике.

Текущее состояние Сейчас в тезаурусе Терминов около 1150, из них Дескрипторов – около 730 Аскрипторов – около 420 Видов связей между терминами – около 20 Связей между терминами – около 3700 Источников терминов и их определений – 128

Заключение Представлен подход к разработке русско-английского электронного тезауруса по компьютерной лингвистике, общий состав и структура которого были разработаны на основе международных и отечественных стандартов. В качестве инструмента разработки использовались ранее созданных в нашем коллективе инструментальные и программные средств, предоставляемые технологией построения порталов научных знаний. Благодаря тому, что эта технология базируется на онтологии, с помощью которой описывается концептуальная схема тезауруса, обеспечивается не только целостность и непротиворечивость терминологической системы тезауруса, но и удобный доступ к его контенту. Эта технология может быть использована для построения многоязычных тезаурусов для любых языков и предметных областей.