Карельский научный центр РАН Институт прикладных математических исследований В.А. Лебедев Роли онтологий в электронной библиотеке Карельского научного.

Презентация:



Advertisements
Похожие презентации
Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
Advertisements

Теория экономических информационных систем Семантические модели данных.
Магистерская диссертационная работа Разработка и реализация программных средств, обеспечивающих функционирование электронной библиотеки научных информационных.
Применение онтологии для ведения и доступа к данным коллекции «Природные ресурсы региона» В.А.Лебедев, С.В.Брагин, В.Г.Старкова Институт прикладных математических.
Системный подход в моделировании. Типы информационных моделей. Цель урока: Сформировать понятия системы и ее состояния. Выделить основные типы информационных.
Технология хранения, поиска и сортировки информации в базах данных
БАЗА ДАННЫХ – ОСНОВА ИНФОРМАЦИОННОЙ СИСТЕМЫ ТЕХНОЛОГИЯ ИСПЛЬЗОВАНИЯ И РАЗРАБОТКА ИНФОРМАЦИОННЫХ СИСТЕМ.
Базы данных. Системы управления базами данных (СУБД)
Системы управления базами данных СУБД является универсальным программным средством предназначенным для создания и ведения(обслуживания) баз данных на внешних.
1 Системный подход в моделировании МОДЕЛИРОВАНИЕ И ФОРМАЛИЗАЦИЯ.
Базы данных Технология хранения, поиска, сортировки данных.
Система управления электронными библиотеками. Состояние Ограниченная доступность электронных представлений в центральных ЭБ Медленная оцифровка изданий.
Любой из нас очень часто сталкивается с «базами данных». Это - всевозможные справочники (например, телефонный), энциклопедии и др. Записная книжка – это.
База данных – информационная модель, позволяющая упорядоченно хранить данные о группе объектов, обладающих одинаковым наборов свойств Базы данных Фактографические.
Исследование строения и динамики развития научного веб-пространства на примере СО РАН Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010.
ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ: ПЕРСПЕКТИВНЫЕ МЕТОДЫ И ТЕХНОЛОГИИ, ЭЛЕКТРОННЫЕ КОЛЛЕКЦИИ XIV Всероссийская научная конференция г. Переславль-Залесский,
СУБД Базы данных. Информационная система Совокупность базы данных и всего комплекса аппаратно- программных средств для ее хранения, изменения, и поиска.
1 Диаграммы реализации (implementation diagrams).
Базы данных Презентация к уроку информатики в 11 классе Учитель Халайчева Н.Г.
Базы данных MICROSOFT ACCESS. Оглавление Введение Microsoft Access. Основные понятия. Таблицы Связи между таблицами. Формы Запросы Отчёты Создание базы.
Транксрипт:

Карельский научный центр РАН Институт прикладных математических исследований В.А. Лебедев Роли онтологий в электронной библиотеке Карельского научного центра РАН RCDL2009 Петрозаводск, 2009

«Виртуальная флора Карелии» «Млекопитающие Карелии» «Минералы Карелии» «Местообитания Восточной Фенноскандии» «Электронные научные публикации» «Аффилофороидные грибы Карелии»

Электронная библиотека (ЭБ) научных информационных ресурсов Карельского научного центра (КарНЦ) РАН (dl.krc.karelia.ru) функционирует с Сейчас она содержит около 15 коллекций, включая коллекции электронных копий научных статей. Для ряда коллекций разработаны онтологии контента, что обеспечивает индексацию и тематический поиск документов в них. В настоящее время поставлена задача развития ЭБ с целью отобразить научные данные по изученности природных и культурно-исторических объектов Карелии в интересах образования и научных исследований. При этом предполагается, что каждый информационный ресурс должен сопровождаться онтологией контента. Очевидно, что «частные» онтологии, например, научных статей, имеют смысл только при наличии общей онтологии. Итак, для развития ЭБ разработка онтологий, охватывающих тематику научных работ КарНЦ РАН, является актуальной.

Онтологии будут выполнять в составе ЭБ несколько ролей: являться моделью контента ЭБ наподобие словников, используемых при разработке энциклопедий; обеспечивать индексацию документов коллекций для построения локальных онтологий документов; представлять контент коллекций документов; обеспечивать построение тематических запросов на поиск релевантных документов в коллекциях.

Онтологии Известны несколько определений понятия «онтология». Мы предпочитаем первоначальное определение T. Gruber – «… точная спецификация концептуализации предметной области …». Здесь два ключевых слова, определяющих содержание работ и технические средства. Спецификация – описание свойств и отношений терминов в рамках какой-либо модели данных (бинарная, сетевая и т.п.) и соответствующего языка описания данных. По ряду причин, которые объясняются ниже, для построения онтологии мы используем реляционную модель данных. Концептуализация подразумевает построение номенклатур терминов предметной области и установление отношений между ними. Как известно, языковые отношения подразделяются на парадигматические (ассоциативные) и синтагматические (грамматические). Для разработки онтологии мы в основном используем парадигматические логические типы отношений, к которым относятся: классификации (род-вид), агрегации (целое- часть), равнозначности (синонимии) и полисемии (многозначности).

Синтагматические отношения используются для уточнения значений понятий. Например, «физиология растений», «высота над уровнем моря», «длина реки», «уровень верхнего бьефа». Классификации и агрегации конструктивны, обладают свойствами антирефлексивности, антисимметричности и транзитивности, т.е. могут создавать структуру типа графа. Отношение синонимии симметрично, рефлексивно и транзитивно, представимо в виде таблицы, содержащей доминантные термины и списки их синонимов. Отношение полисемии деструктивно и требуются специальные меры для его «нейтрализации».

Парадигма (по Т. Куну) Концептуализации подлежат данные наук и научных дисциплин, изучаемых в Карельском научном центре РАН, прежде всего естественных наук. Для обеспечения систематического подхода к построению номенклатур терминов и отношений следует руководствоваться парадигмой рационального устройства природы: Природа состоит из взаимосвязанных и взаимодействующих объектов (предметов, явлений), каждый из которых обладает набором свойств (атрибутов), определенным строением, т.е. состоит из частей (тоже объектов), которые взаимодействуют и тем самым обеспечивают внешний вид (морфология), внутреннее устройство (анатомия), функционирование (физиология), происхождение, становление (генезис, генетика). Взаимодействие объектов является основой для выделения систем и процессов. Объекты и системы изучаются комплексом наук. Каждая наука и научные дисциплины изучают объекты (предметы) определенных классов или подмножества их свойств и взаимодействий специальными методами. Результат исследований отображается в системе понятий и отношений, выражаемых соответствующими терминами. Таким образом, в основу онтологии мы полагаем классификации наук, объектов и их свойств, а также агрегации объектов и свойств в системы и комплексы.

Построение онтологий Термины, представляющие понятия, образуют большие разветвленные номенклатуры. При этом многие термины образуют гнезда синонимов. Для работы с большими связанными номенклатурами наиболее пригодна табличная форма. Она хорошо обозрима, достаточно просто трансформируется и подвергается декомпозиции, что важно для отображения иерархических структур. Эти свойства позволяют расчленять работы на части в пространстве и времени и затем объединять эти части в единое целое. Таким образом, для реализации работ по построению онтологии ЭБ КарНЦ РАН подходит реляционная модель данных и представление онтологии в виде реляционной базы данных с использованием отработанной технологии (например, на основе MySQL). В качестве корневых уровней онтологии у нас принята классификация наук ГРНТИ.

БиологияСистематика организмов Ботаника Физиология растений Цитология Зоология Физиология человека и животных Иммунология Экология Биофизика Биохимия Генетика Почвоведение Водное хозяйствоГидрология суши Лимнология (озероведение) Океанология ГеологияРегиональная геология Тектоника Стратиграфия Геохимия Минералогия Петрография Литология Геоморфология Геология полезных ископаемых Четвертичная геология Палеонтология География Энергетика Экономика Демография и этнология Здесь представлен фрагмент соответствующей таблицы.

Организация работ Важную часть организации работ по созданию онтологии составляет разработка формы таблиц для записи терминов и их отношений. Мы исходим из того, что онтология представляет собой направленный, ациклический, иерархический граф, в котором вершины обозначены терминами, а дуги помечены названиями отношений. Для графа указанного типа пометы дуг могут быть заменены пометами вершин-предков. Тогда, отображающие граф онтологии таблицы могут иметь следующую структуру: УровеньНазвание отношенияТип отношенияПредокПотомок 1ЦарстваККлассификация организмовВирусы (доклеточные) Архебактерии (Archaebacteria) Собственно бактерии (Eubacteria) Протисты (Protista) Растения (Plantae) Грибы (Fungy) Животные (Animalia) 2Царство вирусовКВирусыВирусы позвоночных Вирусы беспозвоночных Вирусы многохозяинные Вирусы растений Вирусы бактерий (фаги, бактериофаги) Вирусы грибов 2Царство растенийКРастенияВысшие Низшие 3РастенияКВысшиеСосудистые (Tracheophyta) Мохообразные (Моховидные, Bryophyta) 3РастенияКНизшиеВодоросли (Альгофлора К Мхи (Bryophytes) 4ОтделыКСосудистые споровыеПсилотовидные (Psilotophyta) Папоротниковидные (Pteridophyta) Плауновидные (Likopodiophyta) Ужовниковидные (Ophioglossophyta)

Здесь: «предок» и «потомок» – пара терминов, связанных отношением данного типа (классификации или агрегации) и вида. В качестве названия вида отношения могут выступать: основание классификации или ее название; название объекта (системы), объединяющего другие объекты (компоненты) или присущие ему свойства; название темы или научной дисциплины, изучающей подмножества свойств или компонентов. Онтология разрабатывается по предметным областям или секторам, что отображается названием таблицы той части графа, к которой относится фрагмент онтологии. На корневых уровнях это названия рубрик ГРНТИ. При большом количестве уровней возможно дробление секторов. Понятие сектора позволяет разделять работы на части и одновременно является средством нейтрализации возможной полисемии. Понятие уровня необходимо для установления положения таблицы или ее части в графе онтологии. В настоящее время разработанный фрагмент онтологии содержит около 2000 терминов (не считая видовых названий организмов) и проходит экспертизу специалистов.

Пополнение контента Контент ЭБ пополняется импортом коллекций документов по изученности классов объектов, представленных в онтологии, и электронными копиями научных публикаций. Имеется соответствующая технология. Онтология содержит термины, обозначающие понятия или объекты. Описание объектов будет представлено в определенной совокупности коллекций. Термины, обозначающие понятия, имеют определения или толкования, многие из которых в настоящее время можно получить из Интернета. Разработана технология импорта толкований терминов с целью доступа к ним посредством сервисов ЭБ КарНЦ РАН. Основой является база данных, структура которой представлена здесь.

Индексация документов Под индексацией здесь понимается формирование онтологии документа, которая является фрагментом общей онтологии предметной области. Сложность здесь в том, что в документе не обязательно содержатся термины, идентифицирующие соответствующий сектор онтологии. Однако фактически в каждом секторе онтологии содержатся термины средних уровней, не связанные полисемическими отношениями. Это позволяет идентифицировать требуемый сектор и тем самым определить принадлежность к нему последующих терминов документа, даже связанных полисемией. Задача решается последовательным сравнением слов документа с терминами онтологии.

Здесь показана структура базы данных индексов. КоллекцияДокументКлючевые слова Млекопитающие Карелии Барсук Млекопитающие Карелии: Систематика млекопитающих: Систематика млекопитающих (лат): Carnivore, Mustelidae, Mustela, Mustelalutreola L. 1766; Систематика млекопитающих (рус): Хищные, Куньи, Барсуки, Барсук; Экология млекопитающих: Враги: Крупные хищники, Волк, Медведь, Росомаха, Рысь; Использование: Жир, Охотничий; Паразиты: Гельминты; Питание: Ягоды, Насекомые, Мышевидные;

Поиск Желательность построения отдельных онтологий коллекций связана с тем, чтобы в них содержались только те термины (кроме корневых уровней), которые присутствуют в документах коллекций. Это предотвращает затраты времени и ресурсов на поиск по запросам с заведомо пустым откликом. Задача решается последовательным просмотром базы данных индексов и сортировкой ее со сжатием. При пополнении коллекции ее онтология может быть отредактирована вручную Разработана соответствующая технология. Здесь показан пример добавления в онтологию нового термина.

Поиск Онтологии коллекций используются для построения тематических запросов на поиск релевантных документов. Разработана соответствующая технология. В процессе просмотра онтологии пользователь отмечает некоторые термины, которые попадают в список. Затем он из терминов этого списка формирует логическое выражение, составляющее аргумент оператора Select.

Поиск выполняется в базе данных индексов. Существующий вариант формирования запроса в настоящее время модернизируется с тем, чтобы запрос отображал названия отношений в онтологии, как показано на примере. Автор благодарит Н.Б.Луговую и В.Г.Старкову за труды по реализации сервисов создания и редактирования онтологии, индексирования документов и тематического поиска. Работа частично поддержана грантом РФФИ а.

Литература Вдовицын В. Т., Лебедев В. А. Онтологии для тематического поиска данных в коллекциях электронной библиотеки. // Труды десятой Всероссийской научной конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Дубна С Вдовицын В. Т., Лебедев В. А., Брагин С. В., Старкова В. Г., Луговая Н. Б. Развитие сервисов электронной библиотеки научных информационных ресурсов //Труды Всероссийской научной конференции Научный сервис в сети Интернет: технологии параллельного программирования, г. Новороссийск, 24 – 29 сентября 2007 г. Издательство Московского университета С Вдовицын В. Т., Лебедев В. А., Луговая Н. Б., Сорокин А. Д., Старкова В. Г.. Развитие и разработка технологии публикации и поиска документов в электронных коллекциях // Труды Восьмой Всероссийской научной конференции по электронным библиотекам, Суздаль, С Вдовицын В. Т., Сорокин А. Д., Луговая Н. Б.. Развитие программных сервисов и контента ЭБ КарНЦ РАН. // Труды Седьмой Всероссийской научной конференции по электронным библиотекам, Ярославль, С Вдовицын В. Т., Сорокин А. Д., Луговая Н. Б.. Электронная библиотека научных информационных ресурсов КарНЦ РАН. // Труды Шестой Всероссийской научной конференции по электронным библиотекам, Пущино, С Добров Б. В., Лукашевич Н. В. и др. Разработка лингвистической онтологии для автоматического индексирования текстов по естественным наукам // Труды Седьмой Всероссийской научной конференции по электронным библиотекам, Ярославль, С Загорулько Ю. А. Методы и метологии разработки, сопровождения и реинжиниринга онтологий. Онтологическое моделирование. Труды Симпозиума. Звенигород, май С Лебедев В. А., Старкова В. Г., Брагин С. В. Представление онтологии научной коллекции «Водные ресурсы региона» // Труды шестой Всероссийской конференции по электронным библиотекам. Пущино, С Лебедев В. А., Старкова В. Г., Брагин С. В. Применение онтологии для ведения и доступа к данным коллекции «Природные ресурсы региона». // Труды седьмой Всероссийской конференции по электронным библиотекам». Ярославль, С Перспективные направления развития российской отрасли информационно-телекоммуникационных технологий (Долгосрочный технологический прогноз Российской IT Foresight) М., с. Фазлиев А. З. Рассуждения о понятии онтология. Онтологическое моделирование. Труды Симпозиума. Звенигород, май С Когаловский М.Р., Калиниченко Л.А. Концептуальное моделирование в технологиях баз данных и онтологические модели //Труды симпозиума "Онтологическое моделирование", Звенигород, мая Хорошевский В. Ф. Онтологические модели и Semantic Web: откуда и куда мы идем //Труды симпозиума "Онтологическое моделирование", Звенигород, мая С Berners-Lee T., Hendler J., Lassila O. The Semantic Web. Scienific American Gruber T. R. A Translation Approach to Portable Ontology specification // Knowledge Acquition, N 5, Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications. // Knowledge Engineering Review, N 11, 1996.