Онтологии и лексико-семантические базы. ABBY ABBY Медиалингва Медиалингва Мультитран www.multitran.ru (Андрей Поминов) Мультитран www.multitran.ru (Андрей.

Презентация:



Advertisements
Похожие презентации
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
Advertisements

2.1. Типы онтологий: верхнего уровня, предметных областей, прикладных онтологий. Лексические онтологии.
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
Онтологии и тезаурусы Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д Определение понятий: онтология, концепт, отношение, аксиомы.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Константинова Наталья. Актуальность На данном этапе существования компьютерных технологий и техники, с развитием наукоемких областей все быстрее растет.
4.1. Онтологии верхнего уровня: SUMO, Sowas ontology SUMO (Suggested Upper Merged Ontology) Онтология Джона Совы (Sowas ontology)
Компоненты онтологических систем и их реализация в современных проектах Санкт-Петербургский государственный университет Институт филологических исследований.
Инструменты построения информационных систем на основе Wiki-технологии и онтологий предметных областей Шестаков Владимир Научный руководитель: Загорулько.
План доклада Таксономия Таксономия Онтологический спектр Онтологический спектр Topic Maps Topic Maps.
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Моделирование семантики в системах АОT - 2. Структурные или формально-логические модели, сформулированные в виде правил преобразований, в частности, Трансформационная.
ИНТЕГРАЦИЯ МЕТОДОВ ИНЖЕНЕРИИ ЗНАНИЙ И ИНЖЕНЕРИИ ПРОГРАММ СИСТЕМА УПРАВЛЕНИЯ ЗНАНИЯМИ KNOWLEDGE.NET Участники проекта Новиков Антон Владимирович Сигалин.
Онтологический подход и его использование для структурирования предметных областей Научная библиотека им. Н.И. Лобачевского Казанского государственного.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
Использование онтологий при анализе предметных областей и проектировании научных информационно-вычислительных систем Фазлиев А.З.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Транксрипт:

Онтологии и лексико-семантические базы

ABBY ABBY Медиалингва Медиалингва Мультитран (Андрей Поминов) Мультитран (Андрей Поминов) МАС (Малый Академический Словарь русского языка) МАС (Малый Академический Словарь русского языка) … Селегей В.П. … Электронные словари и компьютерная лексикография. Ассоциация лексикографов ЛИНГВО asp asp Компьютерная лексикография (словари для человека)

Формализация грамматики А.А. Зализняк А. А. Грамматический словарь русского языка. Словоизменение, М., А.А. Зализняк А. А. Грамматический словарь русского языка. Словоизменение, М., [словоформы] - (лемматизация, морфологический анализ и синтез русских словоформ) Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М., Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М., [морфемы] [морфемы] Золотова Г. А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. М., Наука, Золотова Г. А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. М., Наука, [синтаксемы] [синтаксемы]

Формализованные семантические словари: АРМАС З.М. Шаляпина (1974) АРМАС З.М. Шаляпина (1974) ТКС И.А. Мельчук и др. (сер. 60 ых-1984-) модель управления, лексические функции. В настоящее время доступен в Интернет для скачивания. ТКС И.А. Мельчук и др. (сер. 60 ых-1984-) модель управления, лексические функции. В настоящее время доступен в Интернет для скачивания. РУСЛАН (РУсский СЛоварь для АНализа) (нач ых - ) Н.Н. Леонтьева - Коррекция смысловых отношений, пресуппозиция, вывод, энциклопедическая информация РУСЛАН (РУсский СЛоварь для АНализа) (нач ых - ) Н.Н. Леонтьева - Коррекция смысловых отношений, пресуппозиция, вывод, энциклопедическая информация (см. о словаре Руслан: URL: memory.socionet.ru/files/Dicsem.doc ) Словари для машины (отечественная традиция)

I saw a man / star / molecule with microscope / telescope / binoculars Онтологии и базы знаний «Онтология – это спецификация концептуализации (Gruber, 1992)» Словари для машины (англоязычная традиция) (80-ые – 90-ые годы 20 в.)

Отношения между понятиями и словами корабль – судно (обозначают одну концептуальную сущность - понятие) – лексическое отношении синонимии. (А есть Б)=И & (Б есть А)=И мать, сестра, жена vs. родственница отношение гипонимы/гиперонимы (А есть Б)=И & (Б есть А)=Л

1) Философская (логические типы) 2) Когнитивная (с т.зр. восприятия человеком) 3) ИИ (восприятие компьютером) 4) Лингвистическая (в соответствии с конкретной языковой теорией) 5) Лексикографическая (объяснение значения для человека) 6) ИП (тематическая – для ИП) Традиции описания понятий в онтологиях

Человек Человек взрослый ребенок (+зрелый) (-зрелый) (+зрелый) (-зрелый) мужчина женщина мальчик девочка (+м) (-м) (+м) (-м) 1)Философская традиция (иерархия) Родовидовые отношения и дифференциальные признаки

+чел+м+зр мужчина, мужик,… +чел+м-зр мальчик, пацан, … +чел-м+зр женщина, дама, … +чел,-м-зр девочка, девушка, … -чел+м+зр?? -чел+м-зр?? 1) Философская традиция ( множественная классификация) +чел +м +зр –зр –м -чел

Признаки ортогональны (все комбинации); Признаки ортогональны (все комбинации); Признаки представлены единожды, более эффективна, чем иерархия; Признаки представлены единожды, более эффективна, чем иерархия; Не надо упорядочивать признаки и вводить их на разных уровнях Не надо упорядочивать признаки и вводить их на разных уровнях Сеть вводит концептуализации, которые не используются людьми, но могут быть полезны. Сеть вводит концептуализации, которые не используются людьми, но могут быть полезны. Свойства множественной классификации

Концептуальные сети понятий с ассоциированными свойствами Объекты – человек, роза, вирус, … Объекты – человек, роза, вирус, … Классы объектов – всех людей, всех вирусов,.. Классы объектов – всех людей, всех вирусов,.. Атрибуты объектов – имя и значение атрибута Атрибуты объектов – имя и значение атрибута Цвет (Красный, Y) Отношение – атрибут, значением которого является объект, например: Отношение – атрибут, значением которого является объект, например: Брат (Х, Y) 2) Когнитивная и ИИ традиции

Языки для представления знаний KL-ONE (1985) KL-ONE (1985) Knowledge Interchange Format (KIF) (1991) Knowledge Interchange Format (KIF) (1991) Ontolingua (1992) Ontolingua (1992) Ontology Web Language (OWL) Ontology Web Language (OWL) CycL (1984-, 2006) CycL (1984-, 2006) … Модели Предметных Областей Модели Предметных Областей

Semantic Web ( ) (Семантическая паутина) Языки для разметки и описания веб- документов Tim Berners-Lee HTML 1990s HTML 1990s Hyper Text Markup Language World Wide Web Consortium (W3C)

Языки для разметки и описания веб-документов HTML 1990s HTML 1990s XML (Extensible Markup Language) XML (Extensible Markup Language) RDF (Resource Description Framework) RDF (Resource Description Framework) Языки представления знаний для онтологий OWL (Web Ontology Language) OWL (Web Ontology Language) Интерфейсы для построения онтологий Protégé Protégé SemTalk SemTalk

xml

Cyc – база каждодневных знаний Cyc - (1984-, 2006) попытка соединить онтологию и базу знаний, описывающую знания каждодневно используемые людьми, которые позволяют машине воспринимать информацию, подобно тому, как это делают люди. БЗ Cyc – это формализованное представление большого количества фундаментальных знаний, фактов, эвристик, например, БЗ Cyc содержит более 1 млн. утверждений типа: «Дерево – это растение» «Растения когда-нибудь умирают» …. CycL – язык для формулирования утверждений.

Cyc (формализм БЗ) Конкретные понятия: #$BillClinton, #$France,... Классы: #$Tree-ThePlant, #$EquivalenceRelation…. Функции проверки истинности: #$and, #$or, #$not, #$Implies, #$forAll, …. Предикаты: #$is-a, #$genis, например: (#$is-a #$BillClinton #$UnitedStatesPresident) (#$is-a #$Tree-ThePlant #$Plant) – All trees are plants.

Cyc (правила вывода и факты) (#$implies - if (#$and (#$isa ?OBJ ?SUBSET) (#$genis ?SUBSET ?SUPERSET) (#$isa ?OBJ ?SUPERSET) Факты (306 тыс.)

OpenCyc (2006 г.) - 47 тыс. понятий тыс. фактов. - Микротеории: #$MathMt, #$GeometryGMt, ….

Mikrokosmos Сергей Ниренгург Университет штата Нью Мексико и Университет Мэриленд (США) About 6000 concepts, 250 relations (slots) Focus on lexicon: define cores of meaning clusters and differentiate at the word/sense level; includes English and Spanish (and some other) words Used as Interlingua symbol repository for MT, in Text Meaning Representation (TMR) notation

Mikrokosmos Базовый лексикон – 7 тыс. входов Базовый лексикон – 7 тыс. входов Общий лексикон – 35 тыс. (1999 г.) Общий лексикон – 35 тыс. (1999 г.) Расширяем. Расширяем. TMR: (objects, events, properties - сеть) + микро теории (тип р.а., время и т.д.).

SUMO - The Suggested Upper Merged Ontology 25,000 terms and ~80,000 axioms when all domain ontologies. Самая большая общая онтология.

Upper model (top ontology) Middle model (Mid-level ontology) Domain model (3000) concepts 500 – 100(10)тыс. concepts (2 тыс.–20 тыс.) Most abstract generalizations The world in general Specific domain concepts Used in (Linguistic processor) Used for NLP, IR, QA, etc. Used mainly for domain reasoning Very general axioms Not axiomatized Often high axiomatized Not lexicalized Built by theoreticians: philosophy, AI, KR Built by cognitive scientists and linguists Built by domain experts PENMAN, KPML SUMO, WordNet, UNSPSC и др. Виды онтологий (по количеству понятий) (E. Hovy)

4) Лингвистическая традиция 1. описание значения слова в терминах семантических признаков, которые предсказывают синтаксическое поведение слова (синтагматическая модель). Upper Model (онтология грамматических значений), FrameNet (лексико-семантическая база предикатных слов) 2. лексико-семантические сети, в которых слова определяются в терминах их отношений к другим словам (парадигматическая модель) WordNet

Upper Model – linguistically motivated ontology developed at the Information Sciences Institute in the late 1980s for mediating between domain knowledge and a natural language generation system in the Penman NLG system.

WordNet (начало 80-ых) - парадигматическая модель Принстонский ун-т (США). Miller and Fellbaum - cognitive scientists / Психолингвистический метод – диагностические контексты. Существительные, глаголы, прилагательные, наречия. Методы: психолингвистические. A canary can sing – True A canary can sing – True A canary can fly – True A canary can fly – True A canary has skin – True A canary has skin – True Метод Диагностических контекстов: Синонимия «А – это Б. Б – это А.» Синонимия «А – это Б. Б – это А.» Родовидовое «Это А, следовательно, это Б. Родовидовое «Это А, следовательно, это Б. и неверно Это Б, следовательно, это А»

Noun Nouns organized by hyponym (ISA); average depth of Noun hierarchy = 12 X is a Y Козетка – это диван – это мебель – это домашняя утварь - …

Noun A canary can sing. – True. A canary can fly. – True. A canary has skin. – True.

Noun Он купил новый винчестер, но ружье стреляло плохо. Это был Т34. Дуло было направлено прямо на него. Танк – Т34 Танк - дуло

Adjective Антонимия, синонимия. Параметр: «багаж тяжелый» - вес Относительные прилагательные (atomic bomb, atom bomb)

Verb Глубина иерархии - 3 manner: To eat, to gobble, … To communicate, to telex, … Entailment He is snoring He is sleeping

Использование WordNet в приложениях Более 120 тыс. слов, организованных примерно в синсетов. Между словами установлены парадигматические отношения: синонимии, родо- парадигматические отношения: синонимии, родовидовые, метонимии и др. видовые, метонимии и др. Used for many NLP applications, but effectiveness is controversial (following E.Hovy): IR study claims WordNet not useful (Voorhees) IR study claims WordNet not useful (Voorhees) QA work, using axioms in Extended WordNet (Moldovan), shows great promise QA work, using axioms in Extended WordNet (Moldovan), shows great promise Wordsense disambiguation shows WordNet has too many senses Wordsense disambiguation shows WordNet has too many senses

EuroWordNet ( ) Соединение WordNet словарей английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков на базе WordNet 1.5. BalkaNet (…-2004) - cоединение WordNet словарей греческого, болгарского, турецкого, чешский, французский, румынский и сербский. Polaris – интерфейс для евроворднетов, формат EuroWordNet. верхняя часть иерархии (63 сем. различия) ILI – Inter-Lingua-Index.

Русский WordNet RussNet – СПб университет RussNet – СПб университет Принципы построения wordnet-тезауруса RussNet (2014) Азарова И.В., Синопальникова А.А., Яворская М.В. Русский Wordnet Русский Wordnet

(2013 -) Целью проекта является создание большого открытого электронного тезауруса русского языка. Основная идея проекта эксперимент по комбинированию традиционных принципов создания ворднетов и вики- подхода к наполнению и редактированию лингвистических ресурсов. Любой желающий может присоединиться к обсуждению проекта в рассылке и непосредственной работе по наполнению тезауруса. Для работы требуется доступ к сети Интернет и современный браузер. Проект выполняется при финансовой поддержке РГНФ, «Новый открытый электронный тезаурус русского языка». Поддержка осуществлена в рамках благотворительной деятельности, на средства, предоставленные Фондом Михаила Прохорова.

FrameNet (ICS, Беркли) ( …) Развитие синтагматического подхода глубинных падежей Ч. Филмора в сторону прагматики. Цель проекта – создание ресурса, описывающего значения предикатных слов английского языка на основе корпуса текстов. Фреймы – создаются для синсетов предикатных слов английского языка на основе корпусных данных.

Apply_heat FE : Cook – деятель, тот, кто готовит FE : Food – еда FE : Heating_instrument – средство нагревания Synset: bake, blanch, boil, broil, brown, simmer, stream et al. Matilde [ Cook ] fried the catfish [ Food ] in a heavy iron skillet [ Heating_instrument ].

Иерархия фреймов Inheritance (is-a) - вид Revenge (is-a) Rewards_and_punishment Using (entailment) – импликация (пресуппозиция) Speed (using) Motion Subframe – шаг процесса Criminal_process (Arrest Sentencing) Perspective_on - диатеза Hiring (Get_a_job vs. Employment_start)