Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусству (Тезауруса AAT) Добров.

Презентация:



Advertisements
Похожие презентации
Информационная система «Культурное наследие России» Соловьев В.Д., Иванов В.В., Викторов Д.Г. Казанский Государственный Университет.
Advertisements

Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики.
Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска.
Н.Е.Каленов (БЕН РАН). Цели и задачи проекта сохранение научного наследия и создание условий его эффективного освоения предоставление всем желающим через.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ. Модель – это искусственно созданный объект, заменяющий некоторый объект реального мира и воспроизводящий ограниченное число.
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Мировые информационные ресурсы Классы информационных ресурсов Тема2.
О формировании терминологии оцифровки О формировании терминологии оцифровки Баркова Ольга
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
Пирумова Лидия Николаевна Зам. директора ЦНСХБ, канд.пед.наук Роль лингвистических средств в автоматизированной информационно- поисковой системе Роль лингвистических.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
О приоритетных направлениях использования информационно- коммуникационных технологий в области культуры Herceg Novi 2011 Докладчик: Суконкин Александр.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
Интеграция библиотечных и архивных информационных систем Антопольский А.Б. (НП ЭЛБИ) Маркарова Т.С. (ГНПБ им К.Д. Ушинского)
Любовь Николаевна Соболева, директор МБОУ «Тотемская СОШ 2» © МБОУ «Тотемская СОШ 2» Модель информатизации образовательного процесса: опыт, проблемы, точки.
Транксрипт:

Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусству (Тезауруса AAT) Добров Б.В., Лукашевич Н.В., Соловьев В.Д. МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр РОССИЙСКИЙ НАУЧНО-ОБРАЗОВАТЕЛЬНЫЙ ЦЕНТР ПО ЛИНГВИСТИКЕ ИМ. И.А.БОДУЭНА ДЕ КУРТЕНЭ Казанский государственный университет им. В.И.Ульянова- Ленина

Доступ к цифровым ресурсам по культурному наследию Объекты нетекстовой природы –Текстовые описания –Поиск по изображениям 1-5% музейных экспонатов выставлено в экспозициях Лингвистические ресурсы для концептуального индексирования –Тезаурусы –Онтологии

Тезаурус по архитектуре и искусству (тезаурус AAT) Объем: 30 тысяч дескрипторов;130 тысяч англоязычных терминов Терминология по искусству, архитектуре, материальной культуре, архивным материалам с античности до наших дней. Наиболее полное покрытие: искусство Западной Европы и Америки Специфика искусства народов России представлена недостаточно Но перечислено множество общезначимых сущностей: материалов, объектов материальной культуры и искусства

Адаптация Тезауруса AAT для описания культуры народов России Перевод на русский язык Дополнение русскоязычными синонимами –Общезначимый русский язык (ручка – рукоятка – черенок) –Музейная терминология Дополнение специальной терминологией – отражение специфики культуры России Современные тенденции в развитии ресурсов: –Сбор текстовых коллекций (корпусов – каталоги, описания музейных предметов) –Автоматизированное извлечение терминов по текстам

Информационная система «Культурное наследие РОССИИ» Научно-образовательный центр по лингвистике при Казанском государственном университете НИВЦ МГУ- опыт: –Автоматизированная разработка терминологических ресурсов по текстовым коллекциям –Создание тезаурусов и онтологий для автоматического концептуального индексирования –Тезаурус русского языка РуТез – 49 тысяч понятий, 135 тысяч русскоязычных слов, выражений, терминов –Разработка информационных систем на основе технологий концептуального поиска

Система автоматизированного индексирования на базе тезауруса AAT Получена лицензия от фонда Гетти на некоммерческое использование тезауруса AAT Перевод фасетов AAT: Материалы и объекты Переведено 10 тысяч дескрипторов Ссылка на понятие тезауруса РуТез, если есть – известные общезначимые русскоязычные синонимы, дополнительные отношения Экспериментальная загрузка двуязычного ресурса в тезаурусную оболочку: исходный дескриптор – англоязычные синонимы, русскоязычный дескриптор, дополнение синонимами из Тезауруса РуТез Экспериментальная обработка реальной коллекции описаний музейных предметов

Этапы работы системы автоматизированного индексирования Графематический анализ текста– разбиение текста на значимые элементы: слова, знаки препинания, числа и т.п. Морфологический анализ текста – приведение слов текста к словарной форме Терминологический анализ текста – сопоставление слов текста с терминами тезауруса Разрешение неоднозначности – ручка: ручка чашки, перьевая ручка Результат: индекс по дескрипторам тезауруса – концептуальный индекс – не зависит от исходного языка документа

Фрагмент файла перевода фасета «Материалы»

Экран программной оболочки ведения тезауруса

Примеры из коллекции Казанского этнографического музея Кукла из бумаги. Лицевая сторона обтянута шёлком Обезьяна, голубые глаза из бисера, покрыта кожей с волосяным покровом. Куша. Тело из пестряди. Платье из иранского ситца, с поясом. Кукла; юбка непропорционально длинная, красного цвета. Голова покрыта платком из красного ситца. Кукла. Платье из коричневой ткани. Волосы из пакли, заплетены в косу. Кукла тряпичная. Сарафан из старой ткани розового цвета. Фартук и кофта из красного ситца с беленькими цветочками. На голове розово-белый платок.

Экранная форма ввода описания предмета

Пример работы терминологического анализа hair ВОЛОСЯНОЙ ПОКРОВ wood ДЕРЕВЯННЫЙ cult images БОЖОК wood ДЕРЕВЯННЫЙ cult images БОЖОК headdresses ШАПКА triangles ТРЕУГОЛЬНЫЙ cult images БОЖОК phonograph records ПЛАСТИНКА semicircles ПОЛУКРУГ wood ДЕРЕВЯННЫЙ cult images БОЖОК headdresses ШАПКА dresses ПЛАТЬЕ chintz СИТЕЦ puppets КУКЛА skirts ЮБКА kerchiefs ПЛАТОК chintz СИТЕЦ

Результаты автоматической обработки

Заключение Тезаурус по архитектуре и искусству – важный источник общезначимых терминов в сфере материальной культуры Для адаптации тезауруса AAT для описания объектов материальной культуры России: необходим не только перевод на русский язык, но и пополнение русскоязычными синонимами и специфическими терминами Существенной базой для автоматизированного пополнения могут служить электронные коллекции текстов музеев: каталоги, описания Сотрудничество: наш опыт работы автоматической обработки текстов, разработки тезаурусов + музеи: коллекции, терминология=> двуязычный тезаурус по архитектуре и искусству