Базы знаний, основанные на онтологиях, и исследования озера Байкал А.А.Малых.

Презентация:



Advertisements
Похожие презентации
3.2. Назначение онтологий. Интеграция разнородных источников данных. SemanticWeb. Интеграция разнородных источников данных Онтологии как часть Semantic.
Advertisements

XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Реляционная алгебра Презентация подготовлена зав. кафедрой ИБ, д.п.н., профессором З.В. Семеновой.
Архитектура метаданных WWW. Язык RDF Архитектура метаданных WWW RDF.
База данных (БД) – основа информационных систем(ИС)
Виды моделей данных. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Модуль 1. Математические основы баз данных и знаний.
1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
ВИДЫ МОДЕЛЕЙ ДАННЫХ. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Базы данных. Системы управления базами данных (СУБД)
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
Теория экономических информационных систем Семантические модели данных.
Любой из нас очень часто сталкивается с «базами данных». Это - всевозможные справочники (например, телефонный), энциклопедии и др. Записная книжка – это.
БАЗА ДАННЫХ – ОСНОВА ИНФОРМАЦИОННОЙ СИСТЕМЫ ТЕХНОЛОГИЯ ИСПЛЬЗОВАНИЯ И РАЗРАБОТКА ИНФОРМАЦИОННЫХ СИСТЕМ.
Введение в формальные (аксиоматические) системы. Формальные системы - это системы операций над объектами, понимаемыми как последовательность символов.
От сложного – к простому. От непонятного – к понятному.
МЕТОДЫ ОРГАНИЗАЦИИ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ПОДОБНЫМИ СТРУКТУРАМИ КАК ЕДИНЫЙ ИФОРМАЦИОННЫЙ РЕСУРС ХРАНИЛИЩА МНОГОМЕРНЫХ ДАННЫХ. Волков Антон Андреевич.
Реляционное исчисление. Общая характеристика Запрос – формула некоторой формально-логической теории; описывает свойства желаемого результата. Ответ –
Транксрипт:

Базы знаний, основанные на онтологиях, и исследования озера Байкал А.А.Малых

История интернета Веб был придуман Тимом Бернерсом-Ли – физиком из ЦЕРНа (Швейцария). ТБЛ и другие работают над воплощением данного понимания интернета, которое получило название the Semantic Web... a goal of the Web was that, if the interaction between person and hypertext could be so intuitive that the machine-readable information space gave an accurate representation of the state of people's thoughts, interactions, and work patterns, then machine analysis could become a very powerful management tool, seeing patterns in our work and facilitating our working together through the typical problems which beset the management of large organizations.

Где мы сейчас? Синтаксический web

Синтаксический веб Гипермедиа, распределенная электронная библиотека Библиотека документов, называемых веб-страницами, связанных гиперссылками База данных, платформа для приложений Общий портал для приложений, доступных через веб- страницы, представляющих свои результаты также в виде веб-страниц Платформа для мультимедиа Радио «Эхо Москвы» доступно в любой точке мира. Схема именования Уникальная идентификация документов с помощью URI Место, где компьютеры отрисовывают информацию (без проблем) и люди ищут и интерпретируют информацию (с трудностями) Надо заставить компьютер выполнять более сложную работу

Синтаксический Web малоприменим для Сложные запросы, включающие контекстные знания Найти информацию о животных, которые используют эхолокацию, но не являются летучими мышами и дельфинами Поиск информации в хранилищах данных Информация о рейсах Цены на услуги и товары Результаты по геномной иженерии Поиск и использование web-сервисов Визуализация поверхностного взаимодействия двух протеинов Сложные поручения веб-агентам Закажи мне отдых в выходные где-нибудь в теплом месте, не очень далеко от дома, и чтобы по-русски не говорили, сипуха (Barn Owl)

В чем проблема? Рассмотрим типичную страничку: Разметка состоит из: информации для отрисовки (размер шрифта и цвет) Гиперссылки Смысл страницы доступен человеку, но малодоступен компьютеру …

Необходимо добавить семантику Общие договоренности о структуре описаний и их полей Напр., Dublin Core Соглашение о базовых полях описаний ресурсов Problems with this approach Отсутствие гибкости Ограниченная выразительность Использование онтологий для определения значений Онтологии обеспечивают словарем терминов Новые термины создаются как комбинация существующих Значение (семантика) этих терминов формально описана Можно также описывать связи и отношения между объектами в терминах множеств онтологий

Структурированная текстовая информация Основной тип информации в Интернете: структурированная текстовая (символьная) Разметка: - теги (принадлежность классу) - атрибуты (уточняющая информация)

Древовидная структура текста АДРЕС номер дома название улицы город почтовый код страна 20 Бульвар Гагарина Иркутск Россия

Цель разметки HTML: презентационная (отрисовка) LaTeX: презентационная и логическая БД: логическая XML: любая, зависит от словаря и его интерпретации

Искусственный интеллект vs. компьютерная «глупость» Основная масса ресурсов в Интернете: презентационная (HTML) Компьютер в такой разметке ничего не понимает. Он может хранить пересылать рисовать

Искусственный интеллект vs. компьютерная «глупость» Автоматические сервисы (например, поисковые): примитивный поиск по ключевым словам «XML» в Google – ресурсов – выбирай! Другой полюс: мощные средства ИИ, понимающие человеческий текст – использовать нереально

Что делать? Истина – между полюсами: 1. Текст человеческий, но размечен в доступной для «понимания» компьютером форме – логическая разметка 2. Описания ресурсов («метаописания») для работы продвинутых сервисов 3. «Легкие» логические формализмы, устойчивой среде интернета

Что такое ресурс? РЕСУРС: любой объект, имеющий уникальное имя Благодаря уникальному имени: ресурс можно отличить от других к ресурсу можно привязать (мета)описание иногда можно получить доступ к ресурсу Пример уникального имени: адрес в Интернете. Имя объединяет.

Метаописания Метаописание ресурса: набор атрибутов, привязанный к ресурсу как целому объекту Примеры систем метаописаний: DublinCore: Date, Creator,... IMS: образовательные объекты Стандартизация: принципиально важна

Система метаданных 1. Ресурсы 2. Метаописания ресурсов 3. Значения атрибутов метаописаний Возможности автоматизированной обработки в такой системе полностью зависят от того, как организуются системы значений.

Значения атрибутов 1. Никак не организованы: пользователь заполняет атрибуты на свой страх и риск. 2. Словарь: набор предопределенных значений без внутренней структуры 3. Таксономия: Иерархическая система значений (система классов), напр. УДК 4. Онтология = Таксономия + формальное описание свойств значений Онтология = логическое описание предметных областей

Заключения Автоматизированная обработка «знаний», представленных в виде онтологий. Онтологии базируются на логических формализмах Средства можно применять для представления, обработки структурированной информации из различных дисциплин.

Логика для Интернета Интернет – логически агрессивная среда Логика должна быть 1. простой, чтобы быстро срабатывать и не зависать 2. устойчивой к ложной и некорректной информации 3. богатой, чтобы давать нетривиальные результаты 4. поддерживающей иерархии классов и наследование (для онтологий) Не подходят: ARS и KMS. лучше быть простой, чем богатой

Насколько популярна логика в массах? Логика в массах Пример: логическое программирование, автоматическое доказательство теорем – локальные сообщества по интересам. НЕ. ? популярна

Элита vs. масскульт Интернет – среда масскульта «Издержки демократии»: - выбирают Буша - слушают Киркорова - ориентируются на Майкрософт Проверяем уровень культуры в Интернет- чатах.

Проблема: логика элитарна масскульт: элита: сложность процесс освоения

Объекты vs. аксиомы Для серьезных людей Современные логические методы сильно уступают объектно- ориентированным. Объект класс персона { имя john; cупруг martha;} Логика (аксиоматика) персона(john); … супруг(john, martha); Бестиповость эрбранова универсума (в случае Пролога)

Автоматизация «разума» Логические методы диалекты логики первого порядка метод резолюций Сетевые методы семантические сети (Quillian, 1967) фреймы (Minski, 1981) более интуитивные проблемы с семантикой объектный подход строгая семантика трудны для пользователя аксиоматический подход

Пример сети Person Woman Mother Parent отношения hasChild роли ограничение ранга является концепты отношения роли роли hasChild ограничение ранга наследует

Дескриптивные логики терминологические системы концептуальные языки дескриптивные логики

DL–архитектура язык описаний reasoning база знаний TBox ABox приложения правила

Боксы TBox словарь и определение основных терминов (концептов и ролей) Mother Woman hasChild.Person ABox описание мира, объектов этого мира в терминах концептов и ролей father(PETER) hasChild(PETER, HARRY)

Язык Атомарные концепты соответствуют 1-местным предикатам woman(X) Атомарные роли соответствуют 2-местным предикатам hasChild(X, Y)

Составные концепты Пересечение концептов С D объекты принадлежащие обоим концептам Ограничение ранга R.C все атрибуты роли R принадлежат концепту C hasChild.Female – все дети женского пола Дополнение концепта А объекты, не принадлежащие концепту A - универсальный концепт (все принадлежат) - пустой концепт (никто не принадлежит)

Составные концепты Объединение С D объекты, принадлежащие хотя-бы одному концепту Существование объекта R.C один из объектов принадлежит концепту C hasChild.Female – среди детей есть девочка Ограничение количества nR nR существует не меньше (не больше) элементов 3 hasWife

Кое-что удручает бабушка

Интерпретация теоретико-множественная I - предметная область A: A I I (концепты) R: R I I I (роли) I = I I = ( А) I = I \ A I (C D) I = C I D I ( R.C) I = {a I | b. (a, b) R I b C I } ( R.С) I = {a I | b. (a, b) R I }

Эквивалентности и определения Эквивалентности C D, если C I = D I hasChild.Female hasChild.Student hasChild.(Female Student) Определения – частный случай Mother Woman hasChild.Person Включения Woman Person

Типы запросов Терминология – набор аксиом Поглощение C T D – является ли концепт C ч.сл. D Эквивалентность C T D – эквивалентны ли C и D Разобщение C I D I = ?

Reasoning Структурное поглощение C D пришли из графовых представлений неполные, слабее логического поглощения Табличные алгоритмы опровержение C D

RDF the Resource Description Framework тройка СубъектОбъект предикат

Модель RDF Модель – множество утверждений Утверждение:=(предикат, субъект, объект) Предикат является ресурсом Субъект является ресурсом Объект является ресурсом или литералом

Ориентированные графы с помеченными ребрами foo bar baz bop bing isa has wants plays (isa, foo, bar) (has, bar, baz) (plays, baz, bop) (wants, baz, bing)

RDF является... Стандартным синтаксисом для представления в XML ориентированных графов с помеченными ребрами. Семантические сети

Описания с помощью RDF Александр Пушкин Гениальное произведение Гениальное... Александр Пушкин description author

Проблемы RDF Тяжелый, непродуманный синтаксис Плохая логическая семантика Невозможно компоновать знания в единые распределенные системы

Иерархические предметные области людиппс родитель профессор область людей человек имя: Строка фамилия: Строка passport number: Строка родитель имеет ребенка: человек ппс учит-в: вуз профессор кафедра: подразд-вуз

Документы как описания (HTML)

Документы как описания (LaTeX) \documentclass {newstyle} \usepackage[centertags]{amsm ath} \usepackage{amssymb} \usepackage{amsfonts} \usepackage{mathtext}

Документы как описания (XML/MathML) x 2 + 1

Документы как описания (XML) 20 Gagarina Irkutsk Russia

Описания как абстракции

\documentclass {newstyle} \usepackage[centertags]{amsm ath} \usepackage{amssymb} \usepackage{amsfonts} \usepackage{mathtext}

Описания как абстракции предметная область абстракция (описание) объект/ ресурс интерпретация объект/ресурс - 2

предметная область Абстракции как аппроксимации ресурс/ объект абстракция (описание) interpretation абстракция – 2 аппроксимация

Абстракции как аппроксимации 20 Gagarina Irkutsk Russia Irkutsk Russia

Абстракции как аппроксимации Hello, world!

Ограничение именования Ресурс с именем id обладает описанием t

Ограничение именования область объект описание 1 описание 2 name of resource ограничения именования

Модель типов данных Модель базовых типов данных для построения описаний Примеры: целые числа, вещественные, строки и т.д. Надстройка над моделью: конечные множества списки термы

Дескриптивные термы и термальная надстройка над моделью 1 Определяем иерархию классов модели D. 2 Термальная надстройка над моделью Термы играют роль описаний объектов из D 3 Определяется иерархическая система классов как специальных подмножеств 4 Строится онтология в форме системы ограничений, основанной на ограничении именования домен D ресурс 1 описывает ресурс 2 описывает база знаний: id 1 ::t 1,…, id n ::t n

Дескриптивный терм cn – двуместный функциональный символ, – дескриптивные термы, – атрибуты, – либо дескриптивные термы, либо элементы основной модели типов данных, либо имена из ID.

Дескриптивный терм id петров :: Студент( {Человек(, {фамилия(Петров), супруг(id петрова )})}, {учится(Университет(, ))}) id петрова :: Человек({Объект(, )}, {фамилия(Петрова), супруг(id петров )})

Дескриптивный терм cn – задает класс, – наследуемая информация, – информация об объекте класса Интерпретация:

Семантическое программирование Объединить плюсы и убрать минусы с помощью диалекта СП. План строительства Пусть D – предметная область. Шаг 1. Фиксируем базовую модель - Шаг 2. Над формируется наследственно-конечная надстройка, элементы которой описывают элементы D. Шаг 3. Отражая классификацию объектов D в строится иерархия классов, описывающих D как подмножеств НКН. Шаг 4. Взаимодействие объектов описывается с помошью подходящих и - языков.

СП: термальная надстройка предметная область D термальная надстройка описывает объект Элементы термальной надстройки – описания объектов D

Язык. Константы для элементов модели Константы и Конечные множества констант-«имен» Конечное множество 1-местных ф.с. (атрибутов) Конечное множество 2-местных ф.с. (контейнеров классов) Конструктор «множеств»

Термы. Определение Пример: студент Иван, женатый на Марье Иерархия объектов объект человек студент м ж вуз супруг атрибуты

Структура терма объект(, ) человек(, ) студент(, ) { имя(Иван), супруг(Марья)} { вуз(ИГУ)} функ. симв. p/1 функ. симв. cn/2

Порядок на классах и Пусть D – предметная область. - имена всех классов D Определим порядок на CN., если наследует Если терм человек({студент(...),...) – согласован, а студент({человек(...),...) – нет Обозначим через множество согласованных элементов

Принадлежность атрибута, наследование и аппроксимация Принадлежность атрибута Наследование Аппроксимация Определения СИНТАКСИЧЕСКИЕ

Примеры Принадлежность супруг(Марья) человек(...,супруг(Марья)…} ) Наследование студент({человек(...)}, …) человек(...) Аппроксимирует – содержит больше информации.

Объединение «информаций»: НВГ - наименьшая верхняя грань, если и, и для любого истинность влечет НВГ означает точное объединение «информаций» Предложение. В рамках любые пары элементов обладают НВГ

Аксиомы vs. объекты Свойства объекта не через предикаты, а через атрибуты

Классы: полные элементы t – полный элемент, если t содержит все атрибуты из и для всех вхождений p(r) в t, r также полные элементы. Замечание. Если атрибут p не релевантен объекту, то используем Множество всех полных элементов обозначим

Классы Пусть - порядок на Обозначим множество всех термов, имеющих вид Допустимым классом с именем является является любое подмножество

Допустимые классы допустимое множество для класса

Ресурсы Ресурс – объект с уникальным именем Описание ресурса - ресурс с именем id имеет описание t из термальной надстройки. Бывают анонимные элементы. Обозначаем их :: - предикат именования.

Онтология: язык Расширение языка термальной надстройки. Добавляем: 1. Имена классов 2. Имена типов базовой модели 3. Символ принадлежности атрибута 4. Счетное множество переменных со значениями на

Онтология: описание классов Пусть - некоторый язык сигнатуры - «простой» подъязык Назовем описанием классов набор

Онтологии Онтологией назовем тройку где - язык, - описание классов, - финитное отношение выводимости, действующее на формулах языка

Примеры общезначимых правил (А1) (А2) (А3) если принадлежит

Примеры правил D

Приложения 1. Онтологии и локальный компьютер 2. WEB-программирование 3. Обработка научных и образовательных документов (Латех, HTML, XML, RTF, PDF). 4. Взаимодействие с реляционными базами данных 5. Обобщенное логическое программирование

Проекты МЕТА и МЕТА-2 Флэнг Обработчики научной и образовательной информации, с поддержкой математических формул

План работ 1. Теоретические вопросы - исследование поведения термальных надстроек, уточнение понятий - построение логических систем - стратегии поиска - погружение известных методов - информационные системы и СCP 2. Прикладные вопросы - Развитие проектов, о которых говорилось 3. Методологические вопросы