О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики.

Презентация:



Advertisements
Похожие презентации
ПОДХОД К РАЗРАБОТКЕ РУССКО- АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт.
Advertisements

Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Представление предметной области. Методы представления предметной области. Модель сущность-связь. Инфологическое описание предметной области.
Белорусский Государственный Университет ГУО «Центр проблем развития образования» Ольшевская Мария Владимировна Коммуникативно-когнитивный подход к обучению.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Создание базы данных терминологических словарей Якшин М. М. БЕН РАН.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Вспомогательные средства в работе переводчика Автор презентации Кокорева Инга.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Информационные технологии в городском хозяйстве Представление дисциплины.
ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННОЙ СРЕДЫ ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ.
Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусству (Тезауруса AAT) Добров.
Федеральная электронная медицинская библиотека Логинов Б.Р г. Министерство здравоохранения Российской Федерации Первый МГМУ им. И.М.Сеченова.
Реляционная база данных как структурированное хранилище многоязычного глоссария терминов по аналитической химии. Разработка лингвистической онтологии Колотов.
1. Планирование и анализ новых образовательных результатов (личностных, предметных, метапредметных) 2. Подбор видов учебной деятельности, обеспечивающих.
Особенности различных типов и видов информационных ресурсов. Справочная литература Урок информационной грамотности. 8класс.
Связь правовой информатики с другими науками 1. Кибернетика Семиотика Лингвистика Когнитивная психология Теория информации Информациология 2.
Понятие информационной технологии Сопровождение для лекций по СИКТ А.Н.Адиатуллиной Башкирский государственный педагогический университет им. М. Акмуллы.
Транксрипт:

О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва Москва

Цели разработки Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект в). Главная цель разработки Построить тезаурус по КЛ двойного назначения, т.е. тезаурус, ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.

Цели разработки Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ, Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований. Поддержка решения задач индексирования и информационного поиска. Повышение уровня профессиональной подготовки будущих специалистов в сфере КЛ и информационных технологий Двуязычность тезауруса должна помочь отечественным ученым и специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.

Структура тезауруса Тезаурус включает два типа терминов: дескрипторы (предпочтительные термины) и аскрипторы (остальные термины или текстовые входы). Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами. Все дескрипторы снабжены определениями. Термины, связаны между собой лексико-семантическими отношениями. Тезаурус включает одновременно две версии – русскоязычную и англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий. Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.

Тезаурусная статья (дескриптор) Название термина Релятор Язык термина Определения термина Признак корневого термина (Top Term). Комментарий Автор статьи Источники термина [частота] Источники определения термина Выше / Ниже Выше_Род / Ниже_Вид[аспект деления иерархии] Выше_Целое / Ниже_Часть Выше_Класс_Экземпляра / Ниже_Экземпляр Ассоциируется с Синонимы Эквивалент на другом языке

Тезаурусная статья (аскриптор) Название термина Язык термина Комментарий Автор статьи Источники термина Дескрипторы-«хозяева»

Описание источника терминов Название источника Тип источника Язык источника Описание Библиографическая ссылка URL Количество словоупотреблений Количество документов Комментарий

Пример описания дескриптора Название термина акцент Релятор просодия Язык термина русский Определение термина 1 Смысловое подчеркивание звуковыми средствами какого либо слога или слова во фразе. Комментарий Многие авторы проводят довольно тонкое разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением. Автор статьи Кривнова О.Ф. Источники термина Книга Трахтерова А.Л. Источники определения термина Книга Трахтерова А.Л. Ниже громкостной акцент, долготный акцент, тональный акцент Ассоциируется с ударение Синонимы АВ, акцентное выделение, логическое ударение, эмфатическое ударение Эквивалент на другом языке accent(prosody)

Пример описания аскриптора Название термина логическое ударение Язык термина русский Автор статьи Кривнова О.Ф. Источники термина Энциклопедия РЯ Смотри акцент(просодия)

Пример описания документа Название источника Книга Трахтерова А.Л. Тип источника книга Язык источника русский Описание Пособие направлено на повышение научного уровня преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой. Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962

Общий пример Аскриптор ЧМП язык русский автор словарной статьи Кононенко И.С. Встречается аскриптор в Источник Учебник Баранова А.Н. Смотри Дескриптор Человеко-машинный перевод Дескриптор человеко-машинный перевод язык русский определение1 Системы человеко-машинного перевода выполняют перевод в интерактивном режиме. определение2 Все методы и системы, автоматизирующие процесс перевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод) автор словарной статьи Кононенко И.С. Встречается дескриптор в Источник Учебник Баранова А.Н. Дается определение в Источник определение 1 Справочник по искусственному интеллекту Источник определение 2 Статья Boitet Выше род Дескриптор машинный перевод Ниже вид Дескриптор автоматизированный перевод Дескриптор машинный перевод с участием человека Синоним Аскриптор человекомашинный перевод Аскриптор ЧМП Эквивалент на другом языке Дескриптор machine aided translation Дескрипторавтоматизированный перевод язык русский определение1 Перевод текстов на компьютере с использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством. автор словарной статьи Кононенко И.С. Встречается дескриптор в Источник Коллекция текстов Диалог частота 8 Дается определение в Источник определение 1 Интернет энциклопедия «Википедия» Выше род Дескриптор человеко-машинный перевод Синоним Аскриптор человеческий перевод с участием машины Эквивалент на другом языке Дескриптор machine-aided human translation

Реализация прототипа электронного тезауруса Для разработки тезауруса по КЛ был использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике. Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска. Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы данных тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов. Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены, могут меняться в процессе разработки.

Пример описания дескриптора Пример описания дескриптора

Текущее состояние Тезаурус включает термины из пяти основных терминологических областей: 1. Направления КЛ. Включает термины, обозначающие отдельные направления компьютерной лингвистики. 2. Речевые технологии. 3. Корпусная лингвистика. 4. Информационный поиск. 5. Машинный перевод. 6. Группа терминов «метаязык». Включает термины фонетического, морфологического, лексического, синтаксического и семантического уровней языка и представлений этих уровней.

Текущее состояние Сейчас в тезаурусе Терминов около 1100, из них Дескрипторов – около 700 Аскрипторов – около 400 Видов связей между терминами – около 20 Связей между терминами – около 3500 Источников терминов и их определений – 126