Multilingual Ontology Matching based on Wiktionary Data Accessible via SPARQL Endpoint RCDL 2011, 19-22 октября, Воронеж Санкт-Петербургский институт информатики.

Презентация:



Advertisements
Похожие презентации
Реляционная база данных электронной библиотеки в Semantic Web. Представление метаданных в виде связанных данных Новицкий А.В. Институт программных систем.
Advertisements

Практические применения семантических вычислений. Поиск по графу, контролируемый естественный язык Сергей Горшков, «Бизнес Семантика»
Переводные электронные словари. Company Logo 80-е гг. – компания System Development Corporation (США) Machine-readable dictionary (MRD): Merriam-Webster.
SQL-injections for dummies. Что это? Способ несанкционированного доступа к данным, хранящимся в БД, основанный на внедрении в запрос произвольного SQL-
Платформа реализации электронных архивов данных и документов Марчук А.Г., Марчук П.А. Институт систем информатики СО РАН, г. Новосибирск.
СИСТЕМА МАССОВОЙ ИНТЕГРАЦИИ БАЗ ДАННЫХ: ФУНКЦИОНАЛЬНЫЕ ВОЗМОЖНОСТИ И СПОСОБ РЕАЛИЗАЦИИ В.Н. Коваленко, Е.И. Коваленко, А.Ю. Куликов Институт прикладной.
Модульный принцип описания морфологии в многоязычном многофункциональном словаре Александр Силонов VENI, VIDI… WIKI Usor Anonymus.
Изобретения, которые потрясли мир. Урок английского языка и информатики.
БАЗЫ ДАННЫХ ЛЕКЦИЯ 14. тема: XML-ТЕХНОЛОГИИ В БАЗАХ ДАННЫХ.
Электронные словари. Company Logo Электронный словарь– словарь в компьютере или другом электронном устройстве. Электронные словари сочетают большой объем.
1 Лекция 6 Команды категории извлечения данных языка структурированных запросов SQL План лекции Выборка определенных столбцов таблицы Устранение избыточных.
Обнаружение уязвимостей в web- приложениях, написанных на Python, средствами динамического анализа исходных кодов Заливин Д.А. Козлов Д.Д. Петухов А.А.
Обзор некоторых направлений интеграции гетерогенных ресурсов в электронных библиотеках Новицкий А.В. Институт программных систем НАН Украины.
1 Система хранения XML СУБД Sedna Андрей Фомичев Институт Системного Программирования РАН 5 апреля 2005.
Эволюция понятий «Тезаурус» и «Онтология» Альперин Борис, Новосибирск, 2013.
Нарушение целостности структуры SQL-запроса. Внедрение SQL-кода (SQL injection) один из распространённых способов взлома ПО, работающего с базами данных,
Выполнили: Фаттахов Ленар, Горюнов Семен.. Задача Мы довели нашу программу до полноценного функционирования. Заказчик захотел заняться рассылкой рекламы.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Тамбовский государственный университет имени Г.Р. Державина Институт математики, физики и информатики Кафедра информатики и информационных технологий Иванова.
COLLADA COLLAborative Design Activity Клишин Алексей, 8409.
Транксрипт:

Multilingual Ontology Matching based on Wiktionary Data Accessible via SPARQL Endpoint RCDL 2011, октября, Воронеж Санкт-Петербургский институт информатики и автоматизации РАН Крижановский Андрей andrew.krizhanovsky gmail.com Фейю Лин feiyu.lin jth.hj.se

Содержание Ontology matching Викисловарь SPARQL Отображение онтологий на разных языках

Multilingual Ontology matching RDF / XML файл 1 RDF / XML файл 2

Постановка задачи Выполнить отображение онтологий на разных языках (англ., фр.) Перевести с помощью: Google Translate API Викисловарь (машинно-читаемый словарь) Сравнить качество перевода

Викисловари Викисловарь – многофункциональный многоязычный словарь и тезаурус Грамматический Толковый Этимологический Переводной

Развитие Викисловарей Восемь самых больших Викисловарей ( ) +Первым появился English Wiktionary в декабре 2002 г. +Проект Русский Викисловарь запущен в мае 2004 г.

10 крупнейших* (из 170) Викисловарей NЯзыковая версияСловарных статей Администра- торов Активных редакторов 1Английский Викисловарь Французский Китайский Малагасийский Литовский Русский Турецкий Польский Тамильский Корейский * По данным на октябрь 2011

Английский Викисловарь: Число словарных статей по языкам (Многоязычность) Словарные статьи о словах 433 языков. Переводы английских слов – на 235 языков. Дамп словаря от 18 июня 2011 г. Раздел Английского Викисловаря Число словарных статей Латинский Итальянский Английский Французский Финский и так далее…

Машинно-читаемый словарь на основе Английского Викисловаря: Раздел переводов Английский Викисловарь Machine-readable (MRD) Словарных статей Число переводов с Английского на другие языки ? Языков (> переводов)?68 Формат данныхРазметка Wiki / XMLРеляционная БД Противоречия и ошибки ввода данных ЕстьНет (проверка структуры статьи парсером) Программный интерфейс (API) для перевода слова НетЕсть

Словарная статья (фрагмент) СловоЯзык (код)Часть речи Число сем. отн. Число типов сем. отн. Число значений fleurFrench (fr)Noun2546

11 SPARQL SPARQL Protocol and RDF Query Language RDF язык запросов: Тройка, триплет (?X Отношение ?Y) Конъюнкция (A ; B.) SELECT ?x WHERE { ?A Relation1 ?x ; ?x Relation2 ?B. } Дизъюнкция (A. B.) SELECT ?x WHERE { ?A Relation1 ?x. ?x Relation2 ?B. } Дополнительные шаблоны для уточнения поиска.

12 Платформа D2RQ D2RQ представляет реляционную БД (не RDF) как виртуальный RDF граф 1. Создать файл отображения (MySQL - RDF) 2. Запустить MySQL и сервер-D2RQ 3. Запустить запросы SPARQL Инструкции: D2RQ и данные Викисловаря

13 Wik- tion- ary MRD data- base Wiktionary MRD database

SELECT ?langId ?pageId ?langPosId ?meaningId ?wikiTextIdDef ?definition WHERE { ?lang wikpa:lang_code "en"; wikpa:lang_id ?langId. ?page wikpa:page_page_title "dog"; wikpa:page_id ?pageId. ?lang_pos wikpa:lang_pos_page_id ?pageId; wikpa:lang_pos_lang_id ?langId; wikpa:lang_pos_id ?langPosId. ?meaning wikpa:meaning_id ?meaningId; wikpa:meaning_lang_pos_id ?langPosId; wikpa:meaning_wiki_text_id ?wikiTextIdDef. ?wiki_text wikpa:wiki_text_id ?wikiTextIdDef; wikpa:wiki_text_text ?definition. } Получить толкование из Викисловаря по слову и языку (SPARQL запрос)

Ответ-SPARQL (список толкований слова dog из Английского Викисловаря) lang Id pageId lang Pos Id mean ingId wiki TextId Def definition "An animal, member of the genus ''Canis'' (probably descended from the common wolf) that has been domesticated for thousands of years; occurs in many breeds. Scientific name: ''Canis lupus familiaris''." "A male dog, wolf or fox, as opposed to a bitch (a female dog, wolf or fox.)" "{{derogatory}} A dull, unattractive girl or woman." "{{slang}} A man."

Эксперимент Тестовые данные (OAEI) Онтология на англ. и на фр. На фр. языке: 85 классов, 97 атрибутов = 182 Идеальное отображение - 97 элементов Правильных переводов Число элементов в отображении онтологий PrecisionRecall MRD Wiktionary Google

18 Результаты SPARQL запросы к Викисловарю Список толкования по слову и языку Список синонимов Перевод слова (с английского на один из языков) Пример приложения на Java создаёт SPARQL запросы и получает данные от D2RQ сервера

Спасибо за внимание! Сайт проекта: code.google.com/p/wikokit/

Машинно-читаемый Викисловарь (MRD): Синонимы Викисловарь*MRD Словарных статей Число языков288 Число языков (> словарных статей) 26 Число языков c парадигм. отношен.** ?235 Языков (> отн.)?26 Число сем. отношений? Формат данныхРазметка Wiki / XMLРеляционная БД Противоречия и ошибки ввода данных ЕстьНет *Английский Викисловарь, дамп от 18 июня 2011 г. ** Парадигматические (семантические) отношения – синонимы, антонимы, гиперонимы…

Схема отображения онтологий