О МЕТОДОЛОГИИ НАПОЛНЕНИЯ ОНТОЛОГИЙ Рубашкин В. Ш. кафедра информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ.

Презентация:



Advertisements
Похожие презентации
ОНТОРЕДАКТОР КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ ОНТОЛОГИЧЕСКОЙ ИНЖЕНЕРИИ Рубашкин В. Ш., Пивоварова Л. М. Санкт-Петербургский государственный университет Кафедра.
Advertisements

1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Основные этапы моделирования. Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому.
Онтологии: понятие, методы, применение. Онтологии предметных областей. Лекция 5.
СИСТЕМА ИЗВЛЕЧЕНИЯ ФАКТОГРАФИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ТЕКСТОВ ОБЩЕСТВЕННО- ПОЛИТИЧЕСКОЙ ТЕМАТИКИ Пивоварова Л. М. (СПбГУ) Научный руководитель: Рубашкин В.
Доклад на тему «Создание онтологической базы знаний рекрутинговой системы» Подготовил : Нифталиев В.Э. Руководитель: Привалов М.В.
Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому заключить его в формальные.
Тема 3 Знания. Организация базы знаний. Преподаватель –Юлия Александровна Грачёва.
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Тема 2. Концептуальное проектирование. Лекция 1. Уровни моделей и этапы проектирования.
Модели решения функциональных и вычислительных задач Четвертый раздел (ДЕ 4)
От сложного – к простому. От непонятного – к понятному.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
ЭТАПЫ МОДЕЛИРОВАНИЯ. Цель урока: рассмотреть основные этапы моделирования. Задачи: 1. Повторить понятия «модель», «моделирование». 2. Определить место.
9 класс Урок 4 Матвеева В.П.. Постановка задачи Построение алгоритма Составление программы на языке программирования О т л а д к а и тестирование программы.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
Транксрипт:

О МЕТОДОЛОГИИ НАПОЛНЕНИЯ ОНТОЛОГИЙ Рубашкин В. Ш. кафедра информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ

Общая ситуация: «Технология впереди методологии» Концептуальное моделирование – область, не имеющая прочных дисциплинарных традиций. «Междисциплинарная» или «бездисциплинарная»? «Где готовят…?» «Инженерия знаний»? Языковый комплекс RDF/OWL превращается в стандарт де-факто для сетевого представления знаний. Как применять?... Границы приличий…

Как наполнять зависит от ответа на вопрос что должно наполняться. Единого ответа пока нет. Поэтому приходится начинать с вопроса о востребованной функциональности онтологии.

Целевые технологии Первоначальная целевая технология – документальные ИПС. Ближайший прототип онтологий – информационно-поисковые тезаурусы.

Целевые технологии Два направления использования: Разработка новых информационных технологий Совершенствование традиционных информационных технологий

Целевые технологии Новые: Системы концептуального доступа к информационным ресурсам. -семантический поиск (Semantic Web); -Концептуальный уровень доступа к данным (концептуальные схемы данных - организация прозрачного для смысла доступа к разнородным информационным ресурсам). Вопросно-ответные системы Автоматический анализ текста (извлечение знаний) (включая Information Extraction ).

Целевые технологии Новые: Семантический поиск (Semantic Web) – унификация и формализация описаний: –Лексическая унификация –Синтаксическая унификация (RDF) –Логическая формализация –Содержательная унификация (ср. Wiki)

Целевые технологии Традиционные: Автоматический перевод: 1. Выбор правильного переводного эквивалента 2. Поддержка синтаксического анализа. 3. Поддержка перевода "по прецедентам" (генерализация образцов). OCR и Speech Recognition: 1. Семантические фильтры (на лексическом и грамматическом уровнях) 2. Поиск подходящего прецедента (генерализация образцов). Грамматический корректор: 1. Проверка семантических согласований в синтаксических связях. 2. Проверка наличия семантически обязательных элементов в предложении. 3. Поиск подходящего прецедента (генерализация образцов).

Содержательная функциональность Унификация терминологии. Представление и логическая обработка таксономических отношений. Представление и логическая обработка отношений объемной совместимости/несовместимости (!) Представление и логическая обработка предметно-ассоциативных отношений. Поддержка представления и логической обработки количественных данных. Регламентация процедур описания объектов. Аксиоматизация описаний процессов, причинных связей, процедур Функциональность двух последних типов в большинстве онтологий отсутствует вообще или реализована не полностью.

Содержательная функциональность Смысловое расширение запроса – функция НИЖЕ (К): хищник лев, тигр, волк, шакал,…), функция АССОЦИИРОВАНЫ_С (К): (автомобиль колесо, кузов, мотор, пассажир, груз, шофер, дорога, …). Установление соответствий признак – значение признака; признак – единица измерения; пересчет к стандартной единице измерения. Установление отношения объемной совместимости между концептами: для пары концептов К1, К2 вычислить объемное отношение между ними (совместимость, несовместимость, включение). Функциональность двух последних типов в большинстве онтологий отсутствует вообще или реализована не полностью.

классы - таксономия собственно свойства (DatatypeProperty) - область применимости (domain) и область значений (range) бинарные отношения (ObjectProperty) - область определения (пара domain, range); индивиды (экземпляры) - отнесение к классу и значение некоторых релевантных классу свойств. Язык OWL

Как поступать с реальной терминологией, чтобы описать ее средствами OWL? Немногие примеры, предлагаемые в качестве образца и методического руководства и имеющие один источник OWL Web Ontology Language Guide бродят по всему Интернету и воспроизводятся в тысячах документов. – «Виноделие» – «Пицца» Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Natalya Noy - так приходит слава!

установление отношения объемной совместимости между концептами. В OWL для этого имеется конструкция disjointWith. Конкретный пример – определение несовместимости понятий через использование конструкции DisjointWith «каждый с каждым»? - Ср. «Русский семантический словарь»! Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии

В случаях, когда требуется описать взаимную несовместимость большого набора классов, рекомендуется использовать специальный прием. Определять подклассы, у экземпляров которых может быть только одно название. В соответствии с этим ограничением классы с разными названиями оказываются взаимно несовместимыми: 1 OWL Web Ontology Language Test Cases

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Далее можно определять несовмесимые подклассы рептилий: Amphisbaenidae Agamidae и т.д.

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии При таком описании все подклассы исходного класса обязаны быть несовместимыми. Что исключает возможность многоаспектной классификации. (DisjointUnionOf в OWL отсутствует.) Макротело - красный - синий - зеленый - … - тяжелый - легкий - … - твердый - жидкий - газ Так таксономия OWL может только констатировать, что все перечисляемое есть подклассы класса Макротело. Нужно: Совместимость признаков и несовместимость их значений

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Возникают трудности и с формализацией вопросно-ответных соответствий. (Потеряна связь с соответствующими признаками: цвет, вес, агрегатное состояние, форма) Чтобы восстановить эту связь, свойство цвет придется определить так:

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Для вопроса Какого цвета (этот) шар? необходимо формально отграничить корректные ответы (Шар красный) от некорректных (Шар тяжелый, Шар твердый и т. д.). Ср. *Какого цвета (этот) синий шар?

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии При традиционном использовании OWL остается одна возможность - сформировать искусственные подклассы и переопределить в терминах этих подклассов области значений всех релевантных для исходного класса Макротело признаков: Макротело - Тела имеющие цвет -- красный -- синий -- зеленый -- … - Тела имеющие вес -- тяжелый -- легкий -- … - Тела, характеризующиеся агрегатным состоянием --твердый -- жидкий -- газ

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Признак Цвет теперь можно теперь уточнить так: В примере «Виноделие» значения свойства WineColor (красный, белый, розовый, …) неестественным образом предлагается определять как индивиды) ! Неудобства: Для каждого списка классов-значений нужен свой объединяющий класс. Отношение применимости свойства к объектам не имеет наглядного представления Некоторые объединяющие классы могут оказаться равнообъемными. Ср. Тела имеющие цвет и Макротело.

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Следующий естественный шаг: Макротело - по цвету: -- красный -- синий -- зеленый -- … - по весу: -- тяжелый -- легкий -- … - по агрегатному состоянию: --твердый -- жидкий -- газ -- …

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии И далее превращаем в дерево признаков: Макротело - по цвету: -- красный -- синий -- зеленый -- … - по весу: -- тяжелый -- легкий -- … - по агрегатному состоянию: --твердый -- жидкий -- газ -- … - по форме: -- шар -- пирамида. -- …

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Состав собственно таксономии: терминология предметной области или специально конструируемое "дерево признаков"? Чаще всего набор предметных имен не может быть упорядочен в одном аспекте, но может быть описан в некотором пространстве «призначных координат». Техническое устройство: описание в двух аспектах – - функциональность - принцип действия (способ реализации функции).

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Для конкретных классов объектов обычно возникают специализированные аспекты классификации. Транспортные средства: - среда перемещения (наземный, водный, воздушный транспорт); - источник энергии движения (электротранспорт, топливосжигающий транспорт, ветровой транспорт, мускульный транспорт, …). Воздушный транспорт: - способ создания подъемной силы (самолет, вертолет, аэростат).

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Конкретные названия будут определяться в терминах релевантных таксономических классов. Троллейбус НЕРЕЛЬСОВЫЙ & ЭЛЕКТРИЧЕСКИЙ & ПАССАЖИРСКИЙ & БЕЗ_АВТОНОМНОГО ИСТОЧНИКА ЭНЕРГИИ

Язык OWLи наполнениеонтологии Язык OWL и наполнение онтологии Сами имена таксономических классов зачастую вообще не имеют явного представления в профессиональном языке - конструктор онтологии вынужден заниматься терминотворчеством (не всегда удовлетворительным с чисто языковой точки зрения, но неизбежным). SUMO – MILO: SelfPoweredRoadVehicle (subclass SelfPoweredRoadVehicle RoadVehicle) (subclass SelfPoweredRoadVehicle PoweredVehicle) (documentation SelfPoweredRoadVehicle EnglishLanguage " … &%SelfPoweredRoadVehicle covers motorcycles, semi- trailers, RVs, etc., as well as Automobiles. This class includes vehicles powered by electricity, gasoline, diesel, and other fuels.")

Общие рекомендации 1) Объектом формализации должны быть не отдельные термины, а терминосистемы, представляющие определенную предметную область. Формализация должна быть одинаковой для всего ряда однотипных языковых явлений. 2) Формализация частных терминосистем должна опираться на хорошо выстроенную онтологию верхнего уровня

Действия по формализации частных терминосистем 1) Содержательный анализ словарных определений и вычленение из них базовых признаков и других информационно значимых элементов. 2) Построение иерархической системы базовых признаков для рассматриваемой предметной области ("дерева признаков"). 3) Логическая реконструкция словарных определений в терминах построенной на этапе 2 системы базовых признаков. 4) Перевод полученных толкований на язык описания лексики, принятый в онторедакторе. Логический контроль должен быть "зашит" в технологию ввода; должен не обнаруживать ошибки, а предотвращать их появление.