Реальный мир и хорошие модели данных Cемантика и онтологии в IT Обзорная лекция Учебная программа ТехИнвестЛаб.ру.

Презентация:



Advertisements
Похожие презентации
XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
Advertisements

1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
Архитектура метаданных WWW. Язык RDF Архитектура метаданных WWW RDF.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Практические применения семантических вычислений. Поиск по графу, контролируемый естественный язык Сергей Горшков, «Бизнес Семантика»
ГСНТИ задание 2.2«Разработать сервер доступа к библиотечным информационным ресурсам по протоколу z39.50 и систему обслуживания по принципу «Одно.
Реляционная база данных электронной библиотеки в Semantic Web. Представление метаданных в виде связанных данных Новицкий А.В. Институт программных систем.
Технологии Semantic Web Наталья Геннадьевна Кеберле старш. преп. каф. ИТ,
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
Web-сервис интеллектуальной обработки данных. Разработка семантического программного адаптера Терзиян А.В. Студент гр. ИСПР-00-1 Научный руководитель:
БАЗЫ ДАННЫХ ЛЕКЦИЯ 14. тема: XML-ТЕХНОЛОГИИ В БАЗАХ ДАННЫХ.
Семантический веб: новая эра контекстной рекламы против паранойи слежки. Виталий Юшкевич Веб студия Пугофка.
I. Развитие инструментария onto.pro как библиотеки отраслевых справочных данных.
КАФЕДРА СИСТЕМ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ (САПР) УПРАВЛЕНИЕ БАЗАМИ ДАННЫХ.
Илья Клинцов Руководитель проекта Департамент развития бизнеса Semantic Web & электронные СМИ.
Управление жизненным циклом, стандартизация и библиотека справочных данных ISO ISO Praxos 1.1.
1 Всемирная паутина. 2 Популярнейшая служба Интернета - World Wide Web (сокращенно WWW или Web), еще называют Всемирной паутиной. Представление информации.
Всемирная паутина Компьютерные телекоммуникации. 2 World Wide Web Популярнейшая служба Интернета - World Wide Web (сокращенно WWW или Web), еще называют.
Система управления электронной библиотекой LibMeta Каленкова Анна ВЦ РАН.
Транксрипт:

Реальный мир и хорошие модели данных Cемантика и онтологии в IT Обзорная лекция Учебная программа ТехИнвестЛаб.ру

Реальность и данные Что есть в мире – как об этом записать в компьютере Модель данных –Структура –Смысл «Хорошие» и «плохие модели» –Понимание человек-человек –Понимание человек-компьютер –Понимание компьютер-компьютер

Как говорить о данных? Метамодель – модель – данные Языки метамоделирования –EXPRESS EXPRESS-G Текст –Английский –FOL –RDF/OWL (XML) Нужна ли граница «модель – данные»?

Совершенный мир Использована диаграмма FIATECH

Реальная жизнь Использована диаграмма FIATECH

Частное решение Использована диаграмма FIATECH

Много частных решений Использована диаграмма FIATECH

Общий словарь Использована диаграмма FIATECH

«Хорошая» модель Разделяемая Понятная Описывающая реальный мир –А какой мир «реален»? –Страшное слово – «онтология»

Традиционные парадигмы моделирования данных ТабличнаяКомпьютерных записей СущностнаяПример СтрокаЗаписьОтдельная сущность Моя машина ТТТ КлеткаПолеОтдельный атрибут Красная ТаблицаФайлТип сущностей Машина КолонкаТип поляТип атрибутаЦвет машины

Предметы и атрибуты Моя лампа # 1234 Красная Твоя лампа # 5678 Зелёная

Типы сущностей и атрибутов Моя лампа # 1234 Красная Твоя лампа # 5678 Зелёная Лампа Цвет

Проблема сущностей и атрибутов (1) Продавец Имя Фамилия Кладовщик Имя Фамилия

Проблема сущностей и атрибутов (2) Продавец Имя Фамилия Кладовщик Имя Фамилия Сотрудник Фамилия Кладовщик Имя Продавец Да Нет Да Нет

Сущности в реальном мире Сотрудник Продавец Кладовщик

Субстанциональный подход Имя Фамилия

Аристотелева иерархия всего Предметы Одушевленные предметы Неодушевлённые предметы МашиныЛампы Моя лампа # 1234 Цвет

Тег и серийный номер Насос Bloggs 100H Серийный номер 5755/A C1 P101 C2 Тег Установка первичной перегонки нефти 18 Использована диаграмма Matthew West

время пространство Объект протяжён во времени Наряду с настоящим, существуют и прошлое, и будущее 1.Индивиды расположены как во времени, так и в пространстве, и имеют как темпоральные, так и пространственные части. 2.Если два индивида занимают одинаковую пространственно-временную область, они представляют собой одно и то же (экстенсионализм). 4D + экстенсионализм 19 Использована диаграмма Matthew West

Пространственно-временная карта элемента системы Насос 1 Насос 2 P101 время пространство Установка первичной перегонки нефти элемент системы Установленный на своё место объект Обычный физический объект система 20 Использована диаграмма Matthew West

21 перевод Перевод перевод Приложения проектанты Приложения Поставщики Приложения технология Приложения Эксплуатация ISO – «английский» для данных жизненного цикла ISO определяет : 1.Терминологию 2.Классификацию 3.Стандарт взаимодействия софта

Уменьшая неопределённость? Доступ к данным и обмены работают лучше всего, когда неопределённость исключена из деловых интерфейсов. Неопределённость между обменивающимися сторонами представляет риск, и может потребовать значительных усилий для решения. Сем выше неопределённость тем выше риск и затраты на реализацию действенного и рационального обмена. При появлении нового делового или технологического интерфейса могут появиться новые неопределённости, а затраты и риски – возникнуть вновь. Неопределённость = (Повторить) Затраты и(или) Риск Шкала неопределённости Наименьшая неопределённость Высочайшая неопределённость Наименьшее соответствие Наивысшее соответствие ISO Я просто дам вам кое-какие данные. Вы как-нибудь разберётесь. То есть, это не моя проблема Если мы используем семантический веб, мы, наверное, можем автоматизировать тут ещё больше? То есть, технологии iRING Хорошо, давайте хотя бы договоримся использовать одинаковые термины. То есть, общий словарь Поможет ли вам, если я расскажу, как я использовал данные? То есть,образцы использования и шаблоны

15926 и объединённые справочные данные Основные классы Стандартные и нестандартные классы Модель данных Классы промышленной продукции Логическая организация справочных данных ISO PCA Общественный полигон Частный полигон Чтение- Запись Уровни стандартизации Запросы на сертификацию Объединённая конструкция из связанных в интернете библиотек Неизменные идентификаторы Глобальный справочник

С 2004 года язык представления онтологий OWL рекомендован консорциумом W3C в качестве основного средства описания онтологий. Тем же консорциумом W3C рекомендован стандарт представления информации RDF, как основа компьютерного описания знаний о мире в проектах, призванных объединить накопленные в интернете знания в единый семантический интернет (Semantic Web). Технологии представления знаний

Триплет N-Triple Turtle Сериализация в XML Суть одна: каждое утверждение – это триплет (triple) вида: subject predicate object

RDF Тройки Направленный помеченный граф URI – уникальные обозначения –Пространства имён RDF Schema (RDFS) – набор фиксированных элементов, могущих быть S,O,P Форматы сериализации – XML, N3, Turtle

Идентификация Уникальные идентификаторы ресурсов: URI (Unified Resource Identificator) Unicode – способ представления строк в национальных кодировках (= нет привязки к латинице) URI + поддержка Unicode в идентификаторах ресурсов = IRI: (International Resource Identificator)

URI URL – Uniform resource Locator URN – Uniform Resource Name Semantic-Technologies-Textbooks- Computing/dp/ X urn:isbn: Идентификатор конкретной книги по её адресу в он-лайн магазине Amazon Идентификатор конкретной книги по ISBN (где находится сама книга - неизвестно) is-a

Итак, RDF RDF – Resource Description Framework – Среда описания ресурсов (в Сети) Сеть моделируется как гиперграф (точнее, Giant Global Graph, GGG), вершинами которого являются ресурсы произвольной природы (в том числе, литералы), а дугами – связи (или ссылки) между ресурсами

Пример RDF графа /02/OWL/ISO _2003#ClassOfInanimate PhysicalObject CENTRIFUGAL PUMP RDS /01/rdf- schema#label В описании дуг используются как специальные словари, созданные для моделей данных в промышленности ( ), так и общие словари, например, словарь описания ресурсов в сети, RDF Schemahttps:// /01/rdf- schema#label rdf-syntax-ns#type RDF литералы RDF ресурсы rdl/hasCreationDate

RDF на dc rdl:RDS rdl:hasIdPCA RDS rdl:RDS rdl:hasCreationDate rdl:RDS rdfs:label CENTRIFUGAL PUMP. rdl:RDS rdf:type part2:ClassOfInanimatePhysicalObject. Символ «. » - конец трипла СубъектыПредикатыОбъекты

RDF в XML RDS CENTRIFUGAL PUMP

Ещё более детальная типизация ресурсов: язык OWL OWL = Web Ontology Language Язык разработан для более детального описания групп ресурсов в сети Разработан так, чтобы по исходной, частичной, классификации некоторой группы ресурсов можно было получить (с помощью логического машинного вывода!) полную классификацию этой группы ресурсов Используется везде - в науке, в бизнес-приложениях, при описании ресурсов в Интернет (Web.2.0, Semantic Web, Web of Data...), когда нужно точно описать семантику ресурса Стандартное пространство имён для OWL xmlns:owl = #

Что можно сказать в OWL по сравнению с RDF Schema Что есть класс ресурсов, к которому можно применить логический машинный вывод owl:Class Два (или более класса) ресурсов -Эквивалентны owl:equivalentClass -Не имеют общих элементов owl:disjointWith -Объединяются/пересекаются в новый класс owl:unionOf / owl:intersectionOf Данный класс ресурсов задаётся перечислением его экземпляров owl:oneOf Объявить сложный безымянный класс owl:Restriction Объявить, что объект связи (в трипле ) должен быть непременно ресурсом (owl:objectProperty) или непременно литералом (owl:datatypeProperty) Объявить, что количество ресурсов, участвующих в связи, равно (owl:cardinality), больше (owl:minCardinality) или меньше (owl:maxCardinality) определенного числа

Специализация для CENTRIFUGAL PUMP: RDF-граф rdl:RDS part2:Specialization RDS rdl:hasIdPCA rdf:type rdl:RDS rdl:RDS part2:hasSuperclass CENTRIFUGAL PUMP rdfs:label part2:hasSubclass CENTRIFUGAL SEWAGE PUMP rdfs:label

RDF хранилища RDF triplestore (RDF хранилище, хранилище триплов) – база данных, (грубо) состоящая из двух таблиц: 1)таблица целочисленных идентификаторов для всех используемых URI URI (Code int not null, URI uri) 2) таблица квадов Quad (Graph int not null, Subject int not null, Predicate int not null, Object any not null) 3) индексы GSPO, PGOS, OGPS, SPGS 4) view, связывающий таблицу квадов с таблицей идентификаторов URI и возвращающий квады в читабельном виде. Т.е. хранятся не триплы, а квады (quads, четвёрки)! По структуре триплстора благодарность Ивану Михайлову,

SPARQL SPARQL – это SPARQL Query Language for RDF – язык запросов для RDF Описан здесь Похож на SQL

Compreno AABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне. JОбласть применения - Интеллектуальный корпоративный поиск - Автоматическое реферировании документов - Извлечение фактов из больших объемов информации - Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений - Другие приложения, включающие анализ текстов Universal Semantic Hierarchy Statistics Syntactic Analysis

Editor: инструментарий ISO Система онтологического программирования: - просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926; - поддержка множественности неймспейсов, работа с серверами SPARQL; - консоль онтологического программирования на языке Python; - распознавание онтологических паттернов; Работа будет продолжаться в направлениях: - разработка адапторов для различных инженерных (и не только инженерных) применений; - интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.). Скачать с

Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и мокрый бокс" (ABBYY Compreno)

Формирование справочных данных на основе онтологического разбора ( Editor)

Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno)

Формирование справочных данных на основе онтологического разбора ( Editor)

44 Спасибо за внимание! Анатолий Левенчук, Президент Русского отделения INCOSE Член исполкома Русского отделения SEMAT Виктор Агроскин Член экспертной группы ISO TC184/SC4/WG3 ТехИнвестЛаб.ру (POSC Caesar member) +7 (495) Editor