Автоматический перевод текстов с одних языков на другие, интеллектуальный поиск информации, ее систематизация, реферирование и т.п. общение с компьютерными.

Презентация:



Advertisements
Похожие презентации
7.1. Редакторы онтологий Классификация редакторов Protégé.
Advertisements

XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
От сложного – к простому. От непонятного – к понятному.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
Архитектура метаданных WWW. Язык RDF Архитектура метаданных WWW RDF.
Урок 1 Общие сведения об HTML. HTML H yper T ext M arkup L anguage Язык разметки гипертекста, является тем, с помощью чего web-браузер (программа для.
Константинова Наталья. Актуальность На данном этапе существования компьютерных технологий и техники, с развитием наукоемких областей все быстрее растет.
СУБД Microsoft Access 2003 ЗНАКОМСТВО. Что такое Access? Access – Приложение, входящее в состав пакета Microsoft Office (разработано компанией Microsoft).
Языки, технологии и средства создания Web-сайтов. Компонентная структура. Выполнил Федорова Я.В., студентка СФУ ИППС 1 курс заочное отделение.
Теория экономических информационных систем Семантические модели данных.
Исследование применения онтологических моделей для семантического поиска Цель: определение основных способов и средств построения онтологических моделей.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Выполнил: Гусев Данил. Что такое программное обеспечение? Возможности современного ПК столь велики, что все большее число людей находят ему применение.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
OOП Инна Исаева. Подпрограмма – это большая программа, разделённая на меньшие части. В программе одна из подпрограмм является главной. Её задача состоит.
1 Диаграммы реализации (implementation diagrams).
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
Методология IDEF1X (IDEF1 Extended) – язык для семантического моделирования данных, основанных на концепции « сущность - связь ». Является расширением.
Транксрипт:

автоматический перевод текстов с одних языков на другие, интеллектуальный поиск информации, ее систематизация, реферирование и т.п. общение с компьютерными системами на естественном языке, анализ и синтез устной речи Компьютер и язык

Пример академика Л.В.Щербы Глокая куздра штеко будланула кобра и курдячит бокренка

куздра (кто? что?) - существительное ж.р., 1 скл., в им.п., окончание -а; куздра (какая?) глокая - прилагательное ж.р., т.к. окончание -ая; будланула (что сделала?) - глагол пр.вр., т.к. суффикс -л-, ж.р., т.к. окончание -а, совершенного вида; будланула (как?) штеко - наречие, не изменяется, нет окончания, суффикс -о; будланула (кого?) кобра - существительное, одушевленное, м.р., 2 скл., в в.п., окончание -а; курдячит (что делает?) - глагол н.вр., т.к. окончание -ит, несовершенного вида; курдячит (кого?) бокренка - существительное, одушевленное, м.р., 2 скл., в в.п., т.к. окончание -а, суффикс -енк- (-енок-, - онок-), обозначающий детеныша.

Грамматика – раздел языкознания, содержащий учение о формах словоизменения, строения слов, типов предложения и видах словосочетания. В настоящее время - грамматика - наука, состоящая из морфологии и синтаксиса. Морфология – раздел грамматики, изучающий форму слова. Синтаксис - раздел грамматики, изучающий словосочетание и предложение.

ЭТАПЫ АВТОМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА ПРЕДАНАЛИЗ (подготовка текста к восприятию компьютером; поиск и устранение ошибок, расшифровка сокращений и т.п.) МОРФОЛОГИЧЕСКИЙ АНАЛИЗ (обработка отдельных слов: выделение основ для поиска значений слов в словаре и флексий т.е. приставки, суффикса, окончания и т.п.) ПОВЕРХНОСТНЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ (установление грамматических отношений в рамках предложения; получение его поверхностной синтаксической структуры) ГЛУБИННЫЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ (построение глубинной синтаксической структуры с использованием падежей Филмора и т.п.) ПОВЕРХНОСТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ (установление семантических отношений в рамках предложения) ГЛУБИННЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ (установление семантических связей предложений) ПРАГМАТИЧЕСКИЙ АНАЛИЗ (смысловое связывание текста в единое целое и, в случае необходимости, побуждение к его исполнению к интерпретации)

22 апреля 2009 г. МФТИ6

Ч.Филмор устанавливает следующие глубинные падежи, или роли, аргументов: 1) Агент - одушевленный инициатор событий, описываемых соответствующим глаголом, например, Он говорит ; 2) Контрагент – сила, против которой направлено действие, например, сопротивляться кому-либо; 3) Объект – вещь, которая передвигается или изменяется, положение или существование которой является предметом внимания, например, разбить окно, осуждать кого-либо за опоздание, Камень упал; 4) Место – физическое тело, испытывающее непосредственное воздействие со стороны деятеля, например, задеть чей-либо нос; место отличается от объекта тем, что допускает перифразу типа задеть чей-либо нос – задеть кого-либо по носу; в случае объекта такая перифраза недопустима, ср., разбить чей-либо нос - *разбить кого-либо по носу; 5) Адресат ( goal ), судя по примерам, - лицо, в пользу которого или во вред которому совершается действие, например, осуждать кого-либо, учить кого-либо, продавать что-либо кому-либо, покупать что-либо у кого-либо; 6) Пациенс – вещь, которая испытывает эффекты действия, например, Он осуждает Петра, грабить кого-либо, красть что-либо у кого-либо; 7) Результат – вещь, которая возникает в результате действия (ясных примеров этой роли у Филмора нет); 8) Инструмент – стимул или непосредственная физическая причина события, например, ударить кого-либо кнутом, подняться на ноги; 9) Источник – место, от (из) которого что-либо направлено, например, Он преподает мне математику, Он продает книгу.

Основные проблемы понимания текста : 1. Контекст и проблемная область. Например, «мужчина вошел в дом с красным портфелем». 2. Различная форма передачи синтаксиса (то есть структуры) предложения в разных языках. Например, свободный порядок слов 3. Проблема равнозначности. Предложения «длинноухий грызун бросился от меня наутек» и «заяц бросился от меня наутек» могут означать одно и то же, но могут иметь и разный смысл. 4. Наличие в тексте новых для компьютера слов, например неологизмов. 5. Омонимы 6. Проблема совместимости новой информации с уже накопленными знаниями. Новая информация может каким-то образом противоречить уже накопленной информации. 7. Проблема временных противоречий. Пример: «я думал, что сверну горы». 8. Проблема эллипсов, то есть предложений с пропущенными фактически, но существующими неявно благодаря контексту словами. Например, «я передам пакет тебе, а ты – Ивану Петровичу» во второй части опущен глагол «передашь» и существительное «пакет».

Синтез текстов на естественном языке

Машинный синтез осмысленных текстов и использование ЭВМ для их сочинения преследуют две важные цели. Во-первых, нужно наладить удобный для человека диалог с машиной. Ведь общение с ЭВМ идет по большей части с помощью специальных языков, сильно отличающихся от естественных, и люди, не владеющие такими специальными языками (изучение которых требует времени и значительных усилий), не могут работать с ЭВМ.

Задача синтеза Обратная по отношению к анализу. Если заданы некоторая тема и цель будущего текста, то можно считать заданной прагматическую структуру текста. Ее надо декомпозировать в прагматические структуры отдельных предложений Для каждого предложения пройти все этапы анализа в обратном направлении

Нерешенные проблемы Неизвестно, как генерировать прагматическую структуру текста из тех целей, которые стимулируют создание текста. Непонятно, как эту структуру разбить на прагматические структуры предложений и как от этих частных прагматических структур перейти к глубинным семантическим структурам.

Использование актантов действий С каждым действием связан некоторый набор сопутствующих ему объектов и характеристик. Они, как правило, совпадают с глубинными падежами Филмора.

Последовательность этапов процесса синтеза текстов 1. На первом шаге генерируется нужная последовательность глаголов-действий. 2. На следующем шаге заполняются их актантные структуры, что приводит к появлению глубинной семантической структуры отдельных предложений. 3. Затем эти структуры связываются с учётом общих действующих субъектов и используемых объектов, а также иных связывающих параметров в единый текст. 4. Последний шаг - образование синтаксически правильных конструкций в предложениях - в настоящее время не представляет труда, так как теоретически изучен почти досконально.

Пример: действие "идти", С ним тесно связаны субъект, совершающий это действие, пункты начала и конца движения, цель движения и т. п. Это позволяет связать с глаголом "идти" некоторую структуру с набором пустых пока мест: Действие ИдтиСубъект Куда Откуда

Система волшебных сказок TALE Жил-был X. Не было у X желаемого Y. Стал просить X Бога. Бог обещал. Появился Y. Вырос Y. Ушел раз X и не велел Y делать Z. Вернулся X. Y нет. Понял X, что Y сделал Z. Пошел X искать Y...» В памяти системы TALE хранятся данные для заполнения актантов, а одинаковые переменные показывают, что на эти места всюду надо поставить одни и те же заполнители. Пример: « Жил-был царь. Не было у царя желаемого наследника. Стал просить царь Бога. Бог обещал. Появился наследник. Вырос наследник...».

Формальные грамматики Проппа Эти грамматики позволяют строить последовательности действий, не нарушающие логического порядка повествования (например, глагол "ушел X" относительно глагола "X отсутствует" возникнет раньше). В компьютерной лингвистике проблемы синтеза текстов сейчас находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.

Формальные грамматики Проппа "В некотором царстве, тридесятом государстве жил-был ДЛ1. ИмелДЛ1 ДЛ2, налетел Антигерой, унесДЛ2. Послал ДЛ1 Героя отыскать ДЛ2 и обещал за это Награду. Отправился Герой искать ДЛ2. Идет Герой, видит Помощника. Попросил Помощник Героя. Герой сделал. Идет Герой, видит Препятствие. Позвал Герой Помощника. Преодолели Препятствие. Встретили Антигероя, убили Антигероя. Освободил Герой ДЛ2. Вернулся Герой, получил Награду. Стали жить-поживать, добро наживать". "В некотором царстве, тридесятом государстве жили-были Царь с Царицей. Царь с Царицей имели Дочь. Налетел Змей. Унес Дочь. Послали Царь с Царицей Иванушку отыскать Дочь и обещали за это Полцарства. Отправился Иванушка искать Царскую дочь. Идет Иванушка и видит Ворона. Попросил Ворон Иванушку освободить его. Сделал это Иванушка. Идет дальше Иванушка, видит Бурное море. Позвал Иванушка Ворона. Перелетели через море. Встретили Змея. Убили Змея. Освободил Иванушка Царскую дочь. Вернулся Иванушка, получил Полцарства. Стали жить-поживать, добро наживать".

Вопросно-ответные системы 1) проанализировать заданный вопрос, выявить его грамматическую структуру, формализовать ее, приведя к типовой форме, доступной восприятию машины; 2) найти в хранящейся в машине информации объекты, указанные в вопросе, и отношения между ними; 3) преобразовать найденные данные в текст (синтезировать ответ) на естественном языке, согласованный с заданным вопросом.

ВЗГЛЯДЫВАТЬ POR:V АЛ //СОВ: ВЗГЛЯНУТЬ SYNT:БЕНЕФ,*ДО-КОНЕЧН DES:'ДЕЙСТВИЕ','ФАКТ','АБСТРАКТ' D1.1:'ЛИЦО' D2.1:КОНЕЧН _S0:ВЗГЛЯД TRAF:НЕАКТ-КОМПЛ.12 *************************** ZONE:EN TRANS:GLANCE2 TRAF:EXPANS.64 LR:ВЗГЛЯД TRAF:EXPANS.93 LR:НА1 Словарные статьи русского компьютерного словаря

Системы речевого общения

Cферы применения обучающие системы, синхронный перевод с одного языка на другой, говорящие книжки, говорящие компьютеры для слепых, управление голосом приборы для генерации и восприятия речи глухонемыми

Основа СРО - работа с фонемами Фонема - это минимальная смысловая единица речи. В русском языке 42 фонемы: 6 гласных и 36 согласных. В английском языке 20 гласных (из них 5 дифтонгов) и 24 согласных, во французском - 16 гласных и 20 согласных.

Акустические характеристики фонем обусловлены местом и способом их образования. По месту образования фонемы делятся на –губные (п, б, ф, в, у, м), –зубные и межзубные (д, о), –альвеолярные (с, з, р, а), заальвеолярные (ш, ж, щ, э), –небные (к, г, х, и, ы) –фарингальные (гортанный, например, английское h ). В потоке речи характеристики фонем меняются, что приводит к появлению у них оттенков - аллофонов, например, огубление согласных перед гласными

Акустические характеристики фонем Речевой аппарат человека - единая акустическая система, возбуждаемая периодическими колебаниями голосовых связок либо турбулентным шумом. Распространение акустических волн в такой системе описывается уравнением Вебстера

Уравнение Вебстера S(x) - функция площади сечения голосового тракта вдоль оси x распространения волн; p - давление; c - скорость звука; t - время.

Речевой сигнал может быть описан как периодическое колебание y(t), создаваемое движением голосовых связок со спектром: где A - среднеквадратичное значение амплитуд спектральных составляющих, a k - нормированные амплитуды k-х гармоник, ω 1 - частота первой гармоники, k - фазовые сдвиги k-х гармоник, n - число гармоник.

Передаточные функции по амплитуде

Требования к анализатору СРО При анализе заданного элемента информационной структуры осуществляется демодуляция (детектирование) речевого сигнала по каждому виду модуляции, посредством которой ведется его передача. На входе приемного устройства «речевой» системы связи должны быть: демодулятор длительности, амплитудный демодулятор, частотный демодулятор, демодулятор типа переносчика, демодулятор формы спектров. Результат детектирования по каждому виду модуляции должен быть инвариантен относительно остальных видов модуляции. Если с помощью данного вида модуляции осуществляется передача других элементов информационной структуры, то полученный сигнал должен быть подвергнут дальнейшим операциям разделения с помощью соответствующих декодеров: декодер информации о фонемном составе, декодер информации об интонации речи, декодер информации об индивидуальности голоса, декодер информации о характеристиках среды, декодер информации о физическом и эмоциональном состоянии.

Semantic Web

Идея Семантической Сети (Semantic Web) впервые была провозглашена в 2001 году Тимом Бернерсом-Ли (создателем World Wide Web). –Не является новой ни для автора, ни для web-сообщества –Суть - в автоматизации "интеллектуальных" задач обработки значения (в семантическом смысле) тех или иных ресурсов, имеющихся в Сети. –Обработкой и обменом информации должны заниматься не люди, а специальные интеллектуальные агенты (программы, размещенные в Сети). –Для того, чтобы взаимодействовать между собой, агенты должны иметь общее формальное представление значения для любого ресурса. –Для цели представления общей, явной и формальной спецификации значения в Semantic Web используются онтологии.

История семантического веба 1997 году консорциум W3C определил спецификацию RDF (Resource Description Framework). –RDF предоставляет простой, но мощный язык описания ресурсов, основанный на триплетах (triple-based) "Субъект-Предикат-Объект" и спецификации URI. В 1999 году RDF получает статус рекомендации. –Этот шаг в направлении улучшения функциональности и обеспечения интероперабельности (т.е. возможности обмениваться данными несмотря на их разнородность) в Сети считается одним из важнейших. RDF дает минимальный уровень для представления знаний в Сети. Спецификация RDF опирается на ранние стандарты, лежащие в основе Web: –Unicode служит для представления символов алфавитов различных языков, –URI используется для определения уникальных идентификаторов ресурсов, –XML и XML Schema для структурирования и обмена информацией и для хранения RDF (XML синтаксис RDF).

Семантический Веб есть многодисциплинарная тема, охватывающая теории и методы из трех областей: 1. Логика – формальные структуры и правила логического вывода 2. Онтологии – описания типов сущностей, относящихся к предметной области 3. Теория моделей Джон Сова

2004 год - язык GRDDL (Gleaning Resource Descriptions form Dialects of Languages). –Его назначение состоит в предоставлении средств для извлечения RDF-триплетов из XML и XHTML данных (в особенности это относится к документам, автоматически генерируемым из закрытых баз данных). Создание библиотек классов и построения логических выводов над RDF-графами: –библиотека Jena Framework, в области создания модулей расширения для браузеров Simile для Firefox. Создание визуальных сред редактирования: большое число редакторов онтологий стали поддерживать RDF. В 2004 году статус рекомендации получил язык OWL (Web Ontology Language). В 2005 году - работа над форматом обмена правилами RIF (Rule Interchange Format). Его назначение соединить в одном стандарте несколько формализмов для описания правил (по которым может осуществляться нетривиальный логический вывод): логику клауз Хорна, логики высших порядков, продукционные модели и т.п года - язык SPARQL язык запросов к RDF-хранилищам приобрел статус официальной рекомендации Консорциума W3C. Синтаксически он очень похож на SQL. Широко используется разработчиками информационных систем.

Стек Semantic Web

Тим Бернерс Ли, Decentralized Information Group AAAI, 18 July 2006

Повсеместное использование унифицированных идентификаторов ресурсов (URI). Традиционная схема использования таких идентификаторов в современном Интернете сводится к установке ссылок, ведущих на объект, им адресуемый. Очевидным свойством такой ссылки является возможность «загрузки» объекта, на который она указывает. Таким объектом может быть –веб-страница, –файл произвольного содержания, –фрагмент веб-страницы, –неявное указание на обращение к реально существующему физическому ресурсу по протоколу, отличному от HTTP (например, ссылки mailto:). Концепция семантической паутины расширяет это понятие, включая в него ресурсы, недоступные для скачивания. Адресуемыми с помощью URI ресурсами могут быть, например, отдельные люди, города и другие географические сущности, художественные артефакты и т. д. К идентификатору предъявляются несколько простых требований: –он должен быть строкой определённого формата, –уникальной, –а также адресующей реально существующий объект.

XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки. XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML- документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.

Функции XML –Представление синтаксиса для других языков разметки. –Семантическая разметка Web-страниц. XML- представление может использоваться на Web- странице вместе с таблицей стилей XSL, которая определяет корректный вывод различных элементов. –Единый формат обмена данных. XML- представление может передаваться между двумя приложениями как объект данных.

RDF простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента используются только идентификаторы ресурсов. –Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (консорциумом W3 определена схема XML-документов, содержащих RDF- описания), а также на другие форматы представления (например, в нотацию N3). RDF_Schema описывает набор атрибутов (отношений), –rdfs:Class, для определения новых типов RDF-данных. –поддерживается отношение наследования типов rdfs:subClassOf.

RDF предназначен для описания предметной области ресурсов. Он был принят в 1999 году консорциумом W3C. Первоначально назначение RDF заключалось в описании XML- ресурсов с различных точек зрения. RDF представляет собой модель описания метаданных. Этот язык использует XML-синтаксис. Модель Resource Description Framework имеет своей целью стандартизировать определение и использование метаданных, описывающих ресурсы Web. На RDF можно описывать как структуру ресурса, так и связанную с ним предметную область (RDF Vocabulary Description Language ).

RDF описывает ресурсы в виде ориентированного размеченного графа – каждый ресурс может иметь свойства, которые в свою очередь также могут быть ресурсами или их коллекциями. Базовый строительный блок в RDF это тройка (триплет) «объект атрибут значение» A(O,V), т.е. «объект O имеет атрибут A со значением V». Эту связь можно также представить как ребро с меткой A, соединяющее два узла, O и V: [O]-A>[V]. В литературе W3C: тройка субъекта, предиката и объекта (S,P,O). Модель данных представляет собой набор триплетов и называется RDF-графом.

RDF - Resource Description Framework. Пример has a creator whose value is John Smith RDF-высказывание: a subject a predicate and an object

RDFS Кроме RDF был разработан язык описания структурированных словарей для RDF RDF Schema (RDFS). RDFS предоставляет минимальный набор средств для спецификации онтологий. Получил статус рекомендации W3C в 2004 году. –препятствием для Semantic Web стало то, что документов, написанных на языке RDF/RDFS, было относительно мало. –в период с 2001 по 2004 годы шла интенсивная работа по созданию программных средств для обработки и автоматической генерации RDF-документов

Уровням "Ontology vocabulary" и "Logic" соответствуют OWL и RIF. Уровень "Trust" на данный момент остается незатронутым никакими стандартами. Одно из основных препятствий к реализации всей идеи: поддержка автоматической проверки корректности и правдивости информации. –У многих поставщиков семантических описаний может возникнуть соблазн "обмануть" программу- агента, предоставив информацию, не соответствующую действительности, либо навязчивую рекламу, как это в настоящее время проделывается с поисковыми машинами, спам- фильтрами и т.п.

Онтология Онтология 1 философская дисциплина, которая изучает наиболее общие характеристики бытия и сущностей; Онтология 2 это артефакт, структура, описывающая значения элементов некоторой системы.

Онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно описывать классы, отношения, функции и индивиды. Одно из самых известных определений онтологии дал Том Грубер, звучит оно следующим образом: Онтология это точная спецификация концептуализации.

Содержание онтологии Основными компонентами онтологии могут являться: –классы (или понятия), –отношения (или свойства, атрибуты), –функции, –аксиомы, –экземпляры (или индивиды). Классы или понятия используются в широком смысле. Понятием может быть любая сущность, о которой может быть дана какая-либо информация. Классы это абстрактные группы, коллекции или наборы объектов. Они могут включать в себя экземпляры, другие классы, либо же сочетания и того, и другого. Классы в онтологиях обычно организованы в таксономию иерархическую классификацию понятий по отношению включения. Например, классы Мужчина и Женщина являются подклассами класса Человек, который в свою очередь включен в класс Млекопитающие.

Почему возникает потребность в разработке онтологии? для совместного использования людьми или программными агентами общего понимания структуры информации; для возможности повторного использования знаний в предметной области; для того чтобы сделать допущения в предметной области явными; для отделения знаний в предметной области от оперативных знаний; для анализа знаний в предметной области.

4 уровня онтологий

Онтология представления Цель создания описать область представления знаний, создать язык для спецификации других онтологий более низких уровней.

Онтология верхнего уровня Ее назначение в создании единой "правильной" онтологии, фиксирующей знания, общие для нескольких предметных областей, и в многократном использовании данной онтологии.

Онтология предметной области Онтология предметной области обобщает понятия, абстрагируясь от решаемых задач (так, онтология автомобилей независима от любых особенностей конкретных марок машин). Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут применяться экспертами по предметным областям для совместного использования и аннотирования информации в своей области.

Прикладная онтология Назначение - описать модель конкретной задачи или приложения. Прикладные онтологии описывают концепты, которые зависят как от онтологии задач, так и от онтологии предметной области. Пример - онтология для продуктов, автомобилей, строительных материалов, вычислительной техники. Такие онтологии содержат наиболее специфичную информацию.

Классификация онтологий по содержимому

Использование онтологий и языков описания метаданных Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого (хотя есть и исключения: –например, SwoogleSwoogle –или Intellidimension Semantic Web Search Engine, которое прежде всего предназначено для восприятия человеком.Intellidimension Semantic Web Search Engine В семантической паутине предлагается использовать форматы описания, доступные для машинной обработки (например, семейство форматов, часто упоминаемое в литературе как «Semantic Web family»: RDF, RDF Schema или RDF-S, и OWL), в свою очередь, использующие URI для адресации описываемых и описывающих объектов, а также онтологии и дескрипционные логики в качестве базовых математических формализмов.

Пример

Класс «издательство» имеет следующие атрибуты: – название (строка); – город (строка). Класс «книга» имеет следующие атрибуты: – название (строка); – автор (строка); – ISBN (строка специального формата); – число страниц (натуральное число); – тип обложки (строка; возможные значения: мягкая, твердая, суперобложка); – издательство (экземпляр класса «издатель»); – год издания (натуральное число четыре цифры); – описание (текст); – цена (число с плавающей точкой два знака после запятой). Класс «журнал» имеет следующие атрибуты: – название (строка); – ISSN (строка специального формата); – число страниц (натуральное число); – издательство (экземпляр класса «издатель»); – год выпуска (натуральное число четыре цифры); – номер (натуральное число); – описание (текст); – цена (число с плавающей точкой два знака после запятой).

Языки описания онтологий традиционные языки описания онтологий: Interlinguas, CycL; языки, основанные на дескриптивных логиках (такие, как LOOM), языки, основанные на фреймах (OKBC, OCML, Flogic). Вторая группа языки, основанные на Web- стандартах: XOL, UPML, SHOE, RDF с RDFS, DAML, OIL, OWL, созданные специально для использования онтологий в WWW. Различия между языками заключаются в их возможностях по описанию предметной области и в некоторых возможностях механизма логического вывода для этих языков.

OWL - Web Ontology Language OWL язык представления онтологий в Web. Фактически это словарь, расширяющий набор терминов, определенных RDFS. OWL-онтологии могут содержать описания классов, свойств и их экземпляров. Создание OWL это ответ на необходимость представления знаний в Сети в едином формате. Исторически предшественником OWL был язык DAML+OIL, объединивший 2 инициативы: проект DAML (DARPA Agent Markup Language) и проект OIL (Ontology Inference Layer). Наиболее ранним проектом представления онтологий в Web был SHOE (Simlpe HTML Ontology Extensions). OWL с 2004 года является рекомендацией W3C и объединяет лучшие черты своих предшественников.

OWL Основа – описательные логики Разбит на три вложенных подмножества: –OWL Lite, –OWL DL –OWL Full.

Правила вывода Логические правила вывода при работе с онтологиями дают возможность манипулировать понятиями и данными гораздо эффективнее, позволяя извлекать новые знания. В онтологии издательства в качестве примера можно привести следующее правило вывода: –если существует книга, изданная в некотором году, то издательство, ее выпустившее, работает как минимум с этого года. Для программы-агента смысл значения года, с которого издательство выпускает печатную продукцию, выявляется только после того, как мы создали правило, устанавливающее зависимость.

Разработка онтологий во многом напоминает проектирование классов в объектно- ориентированном программировании, однако есть и ряд существенных отличий. В объектно-ориентированном программировании программист принимает решения, связанные с проектированием, ориентируясь в основном на методы классов, тогда как разработчик онтологии принимает эти решения на основе структурных свойств классов. В результате структура класса и отношения между классами в онтологии отличаются от структуры той же предметной области в объектно-ориентированной программе.

Редакторы онтологий Классификация редакторов Protégé

Классификация инструментов проектирования онтологий зависящие от языка представления знаний не зависящие от языка

Основа большая часть проектов использует комбинацию фреймов и логики предикатов (FOL) инструменты OilEd и OntoSaurus используют дескриптивную логику (DL)

Общие функциональные возможности редакторов пользовательский интерфейс –web-приложение –локальное приложение графический интерфейс для редактирования и навигации поддержка редактора формальных аксиом и сложных выражений коллективная разработка

Примеры

Protégé Изначально использовался в области медицины В последнее время получил широкое распространение для создания онтологий для Semantic Web

Поддерживаемые подходы и языки фреймы + FOL – first order logic («родной») языки представления онтологий в Semantic Web: DAML+OIL, RDF/RDFS, OWL другие языки: SHOE, XOL

Элементы модели знаний классы слоты экземпляры фасеты

Элементы пользовательского интерфейса вкладки для пополнения онтологии модули функционального расширения генерация форм приобретения знаний модули запросов модули логического вывода

Список редакторов WebODE ( OntoSaurus ( WebOnto ( OilEd ( OntoEdit ( OilEd ( Ontolingua (

Библиотеки онтологий DAML ontology library ( Protege ontology library ( Ontolingua ontology library ( WebOnto ontology library ( SHOE ontology library ( WebODE ontology library ( (KA)2 ontology library ( AKT ontology (

Применение

Поисковые сервисы, работающий с семантической сетью

Дублинское ядро (Dublin Core) организация Dublin Core Metadata Initiative (DCMI). открытый проект, цель –разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. – DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS Информация представляется как и в RDF, тройками субъект-отношение-объект. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка RSS специализированное подмножество RDF

Проект «Friend of a Friend» FOAF позволяет описывать отношение знакомства с помощью RDF. Любой его участник может –идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом, адресом блога, и т. п.), –создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, –перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

Architecture of OSW Apps Проект Semantic Web - Semantic Web Challenge Prof. Enrico Motta

Современные разработки проекта Semantic Web Проект Semantic Web - Semantic Web Challenge Prof. Enrico Motta

Современные разработки проекта Semantic Web Проект Semantic Web - Semantic Web Challenge Prof. Enrico Motta

Проект Semantic Web - Semantic Web Challenge Prof. Enrico Motta

Обозначился резкий рост и возникновение компаний, использующих технологию Semantic Web (Radar Networks, MetaWeb, Joost, SiberLogic etc.) произошло вовлечение крупных поставщиков ПО – Adobe, Cisco, HP, Microsoft, Nokia, Oracle, Sun…) активно развиваются правительственные программы – в США, Объединенной Европе, Японии, Корее, Китае сильно вырос медико-фармацевтический рынок – создана специальная группа при консорциуме Health Care and Life Sciences Interest Group at W3C появилось много инструментов с открытым кодом – Kowari, RDFLib, Jena, Sesame, Protégé, SWOOP, Onto(xxx), Willbur Тенденции

Проблема для создания Semantic Web является фактическое отсутствие работающих интеллектуальных агентов. –Не всякая программа, обрабатывающая RDF, является агентом Semantic Web, точно так же как и не всякая программа, написанная на ПРОЛОГЕ, является приложением в области искусственного интеллекта. Разработка формата обмена правилами RIF, построенными над онтологиями, и определение требований и области его применения. Появилось множество свободно распространяемых библиотек для разработки приложений "под Semantic Web". Главными задачами, стоящими перед сообществом Семантической Сети, остаются создание новых онтологий и согласование существующих.

Практическая реализуемость ? Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации. Высказываются разные причины, которые могут быть препятствием к этому, –начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, –открытыми остаются проблемы истинности метаданных, и т. д.), –и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня.

Дублирование информации Необходимость описания метаданных приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFa. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.

К 2012 году - в 80% общедоступных веб-сайтов будет, в той или иной степени, использоваться семантический гипертекст для создания семантических веб-документов (с вероятностью 0.7), - в 15% общедоступных веб-сайтов будут использоваться развитые веб-онтологии для создания семантических баз данных (с вероятностью 0.6) Прогноз Gartner Group Прогноз (?)

Путь движения к Семантическому Вебу