Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска.

Презентация:



Advertisements
Похожие презентации
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Advertisements

Онтологии: понятие, методы, применение. Онтологии предметных областей. Лекция 5.
Н.В.Лукашевич, Д.С Чуйко Автоматическое разрешение лексической многозначности на основе тезаурусных знаний АНО Центр информационных исследований МГУ им.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Эволюция понятий «Тезаурус» и «Онтология» Альперин Борис, Новосибирск, 2013.
Секция 2. Онтологии и метаинформация в системах поиска Председатель: Е.Б. Кудашев Институт космических исследований РАН Механико-математический факультет.
Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусству (Тезауруса AAT) Добров.
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
От сложного – к простому. От непонятного – к понятному.
О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики.
Методологическая культура педагога: аннотация к научной статье и ключевые слова.
Доклад на тему «Создание онтологической базы знаний рекрутинговой системы» Подготовил : Нифталиев В.Э. Руководитель: Привалов М.В.
Исследование применения онтологических моделей для семантического поиска Цель: определение основных способов и средств построения онтологических моделей.
Лекция 3 Архитектура информационных систем. Вопросы лекции 1. Архитектура информационной системы 2. Архитектурный подход к реализации информационных систем.
Б.В.Добров, Н.В.Лукашевич Разрешение лексической многозначности на основе тезауруса предметной области АНО Центр информационных исследований МГУ им. М.В.Ломоносова.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Транксрипт:

Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска (лингвистические и информационные технологии) АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр ГУ НИМЦ "Базис "

Поиск научно-технической информации обеспечение поиска, основанного на знаниях, использование синонимов, автоматическое расширение запроса, автоматический анализ результатов запроса помощь в интерактивном поиске

Традиционные средства тематического поиска - информационно-поисковые тезаурусы Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы Отношения между дескрипторами: -- ВЫШЕ-НИЖЕ – транзитивно, несимметрично -- АССОЦИАЦИЯ – симметрично -- Три-четыре уровня иерархии

Традиционные ИП тезаурусы и автоматическая обработка текстов Процесс индексирования базируется на знаниях эксперта –Удобство для эксперта, относительно небольшая величина –Дескрипторы нужны для описания основной темы –Нехватка знаний о понятиях и языке предметной области Отношения –Проблема с автоматическим расширением запроса –Особенно отношение ассоциации

Семантический поиск в Интернет – Semantic Web: ОНТОЛОГИИ Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории Основные компоненты: –Классы или понятия, примеры –Отношения, функции –Аксиомы / правила вывода

Виды онтологий по составу 1)Словарь с определениями 2)Простая таксономия 3)Тезаурус (таксономия с терминами) 4)Модель с произвольным набором отношений 5)Таксономия и произвольный набор отношений 6)Полностью аксиоматизированная теория (фундаментальная онтология)

Виды онтологий по применению Фундаментальные онтологии Прикладные онтологии (application ontologies) – легкие онтологии (lightweight ontologies) тахономии, ассоциативные тезаурусы Лингвистические онтологии – понятия онтологии связаны со значениями языковых выражений (слов, именных групп и т.п.)

Подходы к описанию отношений при разработке онтологий отношения – произвольный предикат, свойства задаются аксиомами P(x1,…xn) Для того, чтобы такая система отношений работала, нужно стабильно находить отношения в разнообразных текстах Но это проблема!

Формализация описания области научного знания Цель: обеспечение автоматических процедур тематической обработки и поиска текстов Традиционные информационно-поисковые тезаурусы – недостаточно Фундаментальные онтологии – невозможно

Отправная точка Информационно-поисковый тезаурус по общественно- политической тематике РуТез (Общественно-политический тезаурус) 32 тысячи понятий 79 тыс. русскоязычных текстовых входов 80 тыс. англоязычных текстовых входов Автоматическая обработка текстов Автоматическое концептуальное индексирование Автоматическая рубрикация Автоматическое аннотирование Общая лексика Специальная лексика Промежуточная зона Специальная лексика Общая лексика Специальная лексика авиа комп. безопасность

Общественно- политическая ПО Общественные науки Естественные науки Наука vs Общественно-политическая ПО Общественно- политическая ПО

Лингвистическая онтология по естественным наукам: сочетание трех традиций 1)разработки информационно-поисковых тезаурусов (описание терминов, многословные термины, простой набор отношений) 2)разработки лингвистических ресурсов типа WordNet (связь понятия со значением, многоступенчатое построение лексико-терминологической системы, описание многозначности терминов) 3)созданий формальных онтологий (иерархическая система понятий, отношения онтологической зависимости, свойства транзитивности и наследования)

Этапы разработки: набор коллекции текстов Для каждой науки (математика, физика, химия, биология, геология) – коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб) Источники коллекций - документы, доступные в Интернет: материалы школьных уроков; рефераты; университетские лекции; материалы специализированных сайтов

Этапы разработки: автоматическое извлечение терминов из текстов извлечение именных групп (2-3 слова) определенной синтаксической структуры (зависимое прилагательное и/или существительное в родительном падеже) извлечение именных групп произвольной структуры и длины на основе анализа частотных характеристик сопоставление с имеющимися ресурсами

Отбор терминологии Верхние части частотных списков по каждой из наук (10 тысяч слов, 15 тысяч словосочетаний) Просмотр экспертами Отбрасывание явных ошибок, общеязыковых выражений, составных конструкций, состоящих из терминов величина результирующего списка – 32 тысячи слов и словосочетаний Ручная разметка поддеревьев Пересечение отобранных терминов и Общественно-политического тезауруса Замыкание отношений – добавление вышестоящих по таксономии Использование знаний, описанных в Общественно-политическом тезаурусе

Эксперты Эксперты в ПО vs. Инженеры по знаниям дать определение описать таксономические отношения выделить общее для разных школ провести ФОРМАЛЬНЫЙ АНАЛИЗ Примеры: горная порода, руда, минеральное образование (бывает еще и на зубах), природное минеральное образование национальный парк, лесопарк, парк Эксперты-лингвисты – лингвистическая онтология – работа с текстами и значениями

Работа экспертов - 1 Источники –Загруженные списки («кандидаты»), надо либо перевести «кандидата» в основной список, либо удалить –Энциклопедии, словари, учебники –Интернет Операции (на основе материала источников) –Ввод нового понятия, –Описание его текстовых вариантов (макс. полно) –Таксономические отношения –Отношения зависимости понятий (на основе анализа определений, употребления в тексте

Работа экспертов - 2 1) Ввод нового понятия Список «кандидатов» Энциклопедии, книги 2) Поиск определения Энциклопедии, Интернет Анализ определения (анализ контекста употребления) проверка определения – разные определения, старые определения неполно выраженные, только в смысле текущего документа или в смысле подобласти Выделение связанных понятий 3) Проверки Употребляемость (Интернет, списки «кандидатов») Анализ лексической многозначности эвтектика (сплав vs. точка эвтектики) триасс (эпоха vs. пласт)

Покрытие предметной области понятийная структура терминология и лексика 2004, X тыс. 2005,VI тыс. 116,7132,7 74,0 106,888,2 --34,2 --12,0 9,744,5 2004, X тыс. 2005,VI тыс. 62,765,0 24,3 56,143,7 --14,4 --4,0 6,621,1 Всего из них из ОПТ «кандидаты» Науки (без «кандидат») из них из ОПТ Итого, вкл. «географию»

Уже можно использовать с существующим ПО

Обсуждаемые применения Мониторинг инновационно ориентированный мониторинг, установление связей между сервисами / продуктами и результатами научных исследований поддержка экспертизы заявок и отчетов научных проектов, исключение дублирования Техническое регулирование поддержка экспертизы технических регламентов определение объектов техрегулирования в тексте применимость того или иного технического регламента определение нарушения требований технических регламентов

Выводы Представлено состояние работ разработки лингвистической онтологии большого размера для автоматической обработки текстов научно-технической тематики Ресурс будет бесплатен для некоммерческого применения план покрытие тестирование приложения

Отношения онтологической зависимости. Формальная онтология. N.Guarino может ли сущность (С1) существовать сама по себе, или подразумевает существование чего-либо еще (С2): подразумевает ли существование сущности существование какой-либо конкретной сущности (строгая зависимость - rigid dependence) жидкость (С1) - кипение (С2), минерал – геологическое отложение, предполагается ли существование примеров некоторого класса (generic dependence – зависимость по классу) некоторых сущностей, землетрясение (С1) – шкала Рихтера (С2); вулкан – вулканология, газовое месторождение – газовая разведка. взаимозависимые понятия: катализ - катализатор