Российская академия наук Карельский научный центр Онтологически-ориентированный подход к интеграции геоинформационной системы с коллекциями электронных.

Презентация:



Advertisements
Похожие презентации
Российская академия наук Карельский научный центр RCDL2012, Переславль - Залесский, 15–18 октября 2012 г. Ранжирование документов в системе поиска, основанной.
Advertisements

Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
3.1. Назначение онтологий. Информационный поиск..
Магистерская диссертационная работа Разработка и реализация программных средств, обеспечивающих функционирование электронной библиотеки научных информационных.
Коллекции географических данных в Интернет В.А.Лебедев, С.В.Брагин, В.Г.Старкова Институт прикладных математических исследований Карельского научного центра.
Исследование строения и динамики развития научного веб-пространства на примере СО РАН Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010.
Теория экономических информационных систем Семантические модели данных.
Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.
Модели и принципы построения прототипа системы электронной библиотеки вуза © Д.С. Зуев Казанский государственный университет Специальность
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Технология хранения, поиска и сортировки информации в базах данных
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
Единая электронная система библиотечных сервисов С.А. Крашаков Отдел прикладных сетевых исследований Научного центра РАН в Черноголовке RCDL-2012,
©Академия последипломного образования, 2012 Поиск информации в Internet.
Тема урока: « Информационные системы. Классификация информационных систем »
1 Программный комплекс проекта «Электронная Сибирь»: структура и функциональные возможности О.Л.Жижимов Институт вычислительных технологий СО РАН Учреждение.
«Создание информационной системы, обеспечивающей разработку типологии субъектов Российской Федерации для целей проведения образовательной политики с учетом.
Разработка пользовательских интерфейсов Выполнил: Бредихин Юрий Вячеславович студент 3 курса, 31-И группы Старый Оскол, 2015.
Транксрипт:

Российская академия наук Карельский научный центр Онтологически-ориентированный подход к интеграции геоинформационной системы с коллекциями электронных научных публикаций © Вдовицын В.Т., Полин А.К. Институт прикладных математических исследований Институт геологии Карельского научного центра РАН RCDL2012, Переславль-Залесский, 15–18 октября 2012 г.

Российская академия наук Карельский научный центр В институтах КарНЦ РАН ведутся многолетние исследования природных ресурсов региона. Накоплено достаточно много самой разнообразной научной информации (электронные публикации, ГИС-системы, БД и т.п.) - Цель нашей работы заключается в том, чтобы систематизировать эту разнородную научную информацию в единую интегрированную информационную систему и обеспечить эффективный доступ к ней ученых и специалистов.

Российская академия наук Карельский научный центр ЧТО МЫ ПОНИМАЕМ ПОД ЭФФЕКТИВНОСТЬЮ доступа к научной информации: во-первых, предоставить пользователю возможности более точного выражения своих информационных потребностей (использование ключевых слов … не всегда «хорошо»); во-вторых, предоставить пользователю возможности в определенной степени САМОМУ УПРАВЛЯТЬ ПОЛНОТОЙ и ТОЧНОСТЬЮ результатов поиска; в-третьих, избавить пользователя от необходимости формулировать сложные запросы к поисковой системе (например, с использованием булевских операторов AND, OR, NOT) ; в-четвертых, в связи с постоянным ростом числа публикаций обеспечить пользователя автоматическим пополнением его «личного» кабинета новыми релевантными публикациями (в соответствии с заданными информационными потребностями); в-пятых, разработать удобную для пользователя технологию географического поиска.

Российская академия наук Карельский научный центр Архитектура ИАС «Природные ресурсы Карелии»

Российская академия наук Карельский научный центр Информационный поиск – активно развивается на протяжении последних десятилетий … Разработан ряд МОДЕЛЕЙ ПОИСКА (логическая, векторная, вероятностная, и др. модели поиска). На их основе построены самые разнообразные системы информационного поиска. Для сравнения их эффективности предложены соответствующие метрики: ПОЛНОТА, ТОЧНОСТЬ, F-мера и др. Проводятся специальные конференции, на которых обсуждаются вопросы эффективности систем информационного поиска (например, The 6-th Russian Summer School in Information Retrieval). ПОИСК по КЛЮЧЕВЫМ СЛОВАМ – наиболее распространенный способ выражения информационных потребностей пользователя в рамках запроса к поисковой системе. НЕДОСТАТКИ, например: многозначность ключевых слов, недостаточное знание пользователем терминологии предметной области, сложности формулирования запросов с использованием булевских операторов.

Российская академия наук Карельский научный центр В отличие от традиционно используемой для целей индексирования и поиска публикаций модели текста как «набор слов» («bag of words» model) мы используем в качестве модели текста публикации «набор упорядоченных терминов». В нашем случае индекс публикации формируется не на наборе слов, а на основе онтологии, моделирующей содержание определенного тематического множества публикаций. Онтология включает: рубрикатор (в нашем случае ГРНТИ), таксономию терминов определенной научной предметной области и набор логических условий предметизации (правил отнесения публикаций к определенным рубрикам ГРНТИ). Концептуальное индексирование (многозначные термины «разведены» по разным рубрикам; синонимы «учитываются» при выполнении запроса; отношения между терминами используются для расширения или уточнения запроса).

Российская академия наук Карельский научный центр Miriam Fernandez, Ivan Cantador, Vanesa Lуpez, David Vallet, Pablo Castells, Enrico Motta Semantically enhanced Information Retrieval: An ontology-based approach //Web Semantics: Science, Services and Agents on the World Wide Web 9 (2011) 434–452 Raquel Trillo, Laura Po, Sergio Ilarri, Sonia Bergamaschi, Eduardo Mena Using semantic techniques to access web data //Information Systems. 36 (2011). P. 117–133. Mauro Dragoni, Cйlia da Costa Pereira, Andrea G.B. Tettamanzi A conceptual representation of documents and queries for information retrieval system by using light ontologies /Expert Systems with Applications 39 (2012) 10376– Добров Б.В., Лукашевич Н.В. Онтология по естественным наукам и технологиям ОЕНТ: структура, состав и современное состояние /Российский научный электронный журнал «Электронные библиотеки», 2008–Том11–Выпуск 1.

Российская академия наук Карельский научный центр СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных публикаций. ПРЕДМЕТИЗАЦИЯ электронной публикации осуществляется на основе анализа ее названия и ключевых слов с помощью специально разработанных логических условий предметизации. В результате выполняется предварительное отнесение публикации к соответствующим рубрикам ГРНТИ. На этапе ИНДЕКСАЦИИ текст публикации, с целью выявления имеющейся в их составе терминологии, сопоставляется с фрагментом таксономии терминов, отнесенном к соответствующей рубрике ГРНТИ. При этом происходит уточнение ранее выполненной предметизации и формирование индекса публикации.

Российская академия наук Карельский научный центр термины в таксономии связаны типами отношений классификации (род-вид), агрегации (часть-целое) и синонимии. Два первых типа формируют иерархическую структуру таксономии. Синонимия терминов образует отдельную таблицу, записи которой - синонимические гнезда по отношению к доминантному термину. Фрагменты таксономий: по экологии растений (слева); по водным объектам (справа)

Российская академия наук Карельский научный центр Пример логического условия предметизации, представленный в виде правила-продукции ЭС IF (охлаждение OR температура OR влага OR влажность OR нестабильный климат OR устойчивость OR стойкость OR выживаемость OR адаптация OR терморезистентность OR реакция) AND (растения OR пшеница OR картофель) THEN рубрика ГРНТИ – Действие физических факторов на растения

Российская академия наук Карельский научный центр ИНДЕКСАЦИЯ 1.для каждой публикации находим первую по порядку рубрику ГРНТИ, к которой она была отнесена на этапе предметизации; 2. выделяем соответствующий фрагмент таксономии для этой рубрики; 3. осуществляем подготовку текста публикации и фрагмента таксономии для индексирования ( переводим в текстовый формат, удаляем из текста слова, не несущие смысловую нагрузку, к тексту и терминам выделенного фрагмента таксономии применяется стеммер Портера ); 4. последовательно сравниваем слова текста публикации с терминами выделенного фрагмента таксономии (включая синонимы терминов) и определяем совокупность терминов, входящих в текст публикации. ИНДЕКС представляет собой ряд строк (ветвей таксономии), начиная с названия рубрики (корня) и включая все термины таксономии вплоть до найденного термина. В результате индексации массива публикаций формируется БАЗА ИНДЕКСОВ, которая используется для поиска публикаций по запросам.

Российская академия наук Карельский научный центр Фрагмент таксономии (таксономия систематизирована по рубрикам ГРНТИ) В процессе предметизации проверяется условие отнесения документа к рубрикам ГРНТИ и формируется таблица ИНДЕКСАЦИИ

Российская академия наук Карельский научный центр При индексации документа по таксономии формируется индексный файл для поиска

Российская академия наук Карельский научный центр объем индексного файла – 8 Мб объем файлов с текстами документов – 1,5 Гб

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Запрос Поиск по ЯндексуПоиск по онтологии rpPrpP 1 Недревесные лесные ресурсы 0,400,470,300,740,940,78 2 Альгофлора 0,410,680,610,890,77 3 Лекарственные растения 0,601,00 4 Паразиты рыб 0,900,91 0,98 5 Действие физических факторов на растения 0,680,420,350,680,930,86 6 Лесоводство. Методы ухода 0,710,630,530,821,00 7 Наземные позвоночные. Болезни, паразиты 0,460,410,40,880,95 Оценка эффективности предлагаемого метода информационного поиска

Российская академия наук Карельский научный центр 1. массив электронных публикаций, в котором осуществляется поиск, предварительно систематизирован по предметному рубрикатору ( в нашем случае по ГРНТИ ) – уменьшается время поиска 2. индекс каждой публикации автоматически формируется с использованием таксономии терминов и на наш взгляд более детально характеризует ее содержание по сравнению со списком ключевых слов ( пользователь, как правило, указывает в запросе 2 – 3 ключевых слова, не всегда владеет терминологией предметной области; в нашем случае система АВТОМАТИЧЕСКИ вставляет в запрос «связанные» в рамках таксономии термины ) 3. поиск может осуществляться как по таксономии терминов, так и по ключевым словам (в последнем случае требуется «показать» пользователю те разделы таксономии, в которых встречаются указанные термины запроса). ПРЕИМУЩЕСТВА ПОДХОДА

Российская академия наук Карельский научный центр 4. наиболее эффективной схемой взаимодействия пользователя с информационной системой – указание своих информационных потребностей (с помощью таксономии терминов) и автоматическое пополнение релевантными публикациями своего «личного кабинета»; 5. в системе предусмотрена (с использованием терминов таксономии) возможность автоматического уточнения смысла многозначных терминов запроса (например, полисемия терминов устраняется в процессе построения запроса за счет «отсечения» других предметных областей); 6. фактически, пользователь сам управляет ПОЛНОТОЙ и ТОЧНОСТЬЮ результатов поиска информации.

Российская академия наук Карельский научный центр Географический поиск в ИАС

Российская академия наук Карельский научный центр

В основу подхода положена идея формирования для каждой публикации «географического» индекса, который дополняет ее «текстовый» индекс. Географический индекс формируется автоматически по онтологии географических названий региона, с использованием разработанной нами технологии систематизации и поиска электронных публикаций. Реализация данного подхода позволяет пользователям: 1. по выделенным участкам карты автоматически получить доступ к семантически связанным с этими участками электронным документам. 2. по найденным по запросу пользователя электронным публикациям осуществить автоматический переход к соответствующим участкам карты, к географическим объектам которых они имеют отношение.

Российская академия наук Карельский научный центр Д.М. Скачков, О.Л. Жижимов Об использовании ретроспективного геокодирования для географического поиска в электронных библиотеках //Труды 13-й Всеросс. научн. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL2011, Воронеж, 19–22 октября 2011 г. С. 51–58. Christopher B. Jones, Harith Alani and Douglas Tudhope (2001) Geographical Information Retrieval with Ontologies of Place In Proceedings of the International Conference on Spatial Information Theory: Foundations of Geographic Information Science (COSIT), Morro Bay, CA, USA, 322–335. David S Batista, Mário J Silva, Francisco M Couto, Bibek Behera Geographic Signatures for Semantic Retrieval //GIR th Feb. 2010, Zurich, Switzerland. Nieves R. Brisaboa, Miguel R. Luaces, Ángeles S. Places, Diego Seco Exploiting geographic references of documents in a geographical information retrieval system using an ontology-based index //Geoinformatica (2010) 14:307–331 DOI /s

Российская академия наук Карельский научный центр {ИНДЕКС публикации} :: [содержательный индекс] & [ГЕОГРАФИЧЕСКИЙ ИНДЕКС] ____________________________________________________________________ ГЕОГРАФИЧЕСКИЙ ИНДЕКС формируется по разработанной технологии систематизации и поиска электронных публикаций с использованием ОНТОЛОГИИ ГЕОГРАФИЧЕСКИХ НАЗВАНИЙ РЕГИОНА ! ПРИМЕР онтологии географических названий ! ! Республика Карелия ! Петрозаводск ! Районы ! … ! Кемский ! Города ! Кемь ! Поселки ! Юма ! Шомба ! … ! Реки ! Кемь ! Шомба ! … ! Озера ! Болота

Российская академия наук Карельский научный центр Поиск научных публикаций по онтологии географических названий региона Использовались атрибутивные данные карты Карелии масштаба 1: (СевЗапАэроГеодезия, 2000–2001 гг.) по административным районам Карелии, озерам, населенным пунктам и т.п.

Российская академия наук Карельский научный центр Общая схема организации географического поиска

Российская академия наук Карельский научный центр Географический поиск. Пользователь с помощью специального сервиса доступа к ГИС-данным выделяет на тематической карте интересующую его область (например, в виде прямоугольника). Система осуществляет обратное геокодирование (т.е. реализуется процедура запроса всех названий объектов по указанным координатам с использованием онтологии географических названий). Далее пользователь ИАС может осуществить поиск электронных публикаций, семантически связанных с выделенными названиями географических объектов, двумя следующими способами: 1. Запустить процедуру поиска электронных публикаций, в географических индексах которых присутствуют названия указанных географических объектов. 2. Обратиться к сервису доступа к электронным публикациям и с его помощью получить нужные публикации, как по интересующей его тематике, так и с учетом их связи с выделенными географическими объектами (в этом случае при формировании логического условия отбора данных система автоматически добавит в условие отбора дизъюнкцию названий соответствующих географических объектов, указанных в запросе).

Российская академия наук Карельский научный центр Текстовый поиск. Пользователь с помощью сервиса доступа к электронным публикациям находит нужные ему по тематике публикации и, при необходимости, может запросить те участки карты, с которыми найденные публикации семантически связаны (в этом случае система осуществит прямое геокодирование с использованием онтологии географических названий региона и по географическому индексу найдет соответствующие участки тематической карты).

Российская академия наук Карельский научный центр 1. Как зависит ПОЛНОТА поиска от «полноты» онтологии? 2. Насколько адекватно отражаются информационные потребности пользователя с помощью онтологии? 3. Качество географического поиска. ЗАКЛЮЧЕНИЕ

Российская академия наук Карельский научный центр Авторы благодарны разработчикам программного обеспечения ИАС «Природные ресурсы Карелии» Н.Б. Луговой, В.Г. Старковой, М.В. Гушкалову Демонстрационный прототип системы представлен в сети Интернет – Работа частично поддержана грантами РФФИ офи_м, а, а также - the projekt CoReLib saported by the Swedish Institude by grant Спасибо за внимание!

Российская академия наук Карельский научный центр

- тестовая коллекция документов (1000 научных публикаций в области биологических наук); - тестовое множество информационных потребностей пользователя, выражаемых в виде запросов (выбрали 7 запросов); - набор бинарных оценок для каждого найденного документа, характеризующих релевантность или нерелевантность данных документов к запросам (привлекли экспертов). Оценка эффективности предлагаемого метода информационного поиска полнота – r = a/(a+c); точность – p = a/(a+b); пертинентность – P = a1/(a+b) (где: a – найденные релевантные документы, b – найденные нерелевантные документы, c – ненайденные релевантные документы, a1 – количество пертинентных документов, (a+b) – общее количество документов в отклике на запрос.

Российская академия наук Карельский научный центр Мы выделили следующие типы публикаций по характеру работ (безотносительно к ГРНТИ): описание результатов экспериментов, наблюдений, мониторинга и технологий; обобщенное описание объектов исследований, разработок; состояние, проблемы и перспективы научных дисциплин, междисциплинарных исследований (общие вопросы по дисциплинам, наукам).

Российская академия наук Карельский научный центр Для каждого типа публикаций разработана обобщенная схема логического условия Λ ( ν ν ν ν ) Λ Λ ( ν )

Российская академия наук Карельский научный центр