Г ЕОГРАФИЧЕСКИЙ ПОИСК В ИНФОРМАЦИОННЫХ СИСТЕМАХ С ИСПОЛЬЗОВАНИЕМ РЕТРОСПЕКТИВНОГО ТЕЗАУРУСА Скачков Д. М., Жижимов О. Л. Институт вычислительных технологий.

Презентация:



Advertisements
Похожие презентации
Автоматизированная библиотечная система и электронный архив открытого доступа Разделение задач, функций и технологических решений Негуляев Е. А. Пятая.
Advertisements

1 Программный комплекс проекта «Электронная Сибирь»: структура и функциональные возможности О.Л.Жижимов Институт вычислительных технологий СО РАН Учреждение.
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
Модели и принципы построения прототипа системы электронной библиотеки вуза © Д.С. Зуев Казанский государственный университет Специальность
25 июня 2009 года Байкальский информационный форум 2009 г. Улан-Удэ Российская академия наук Сибирское отделение Институт вычислительных технологий Типовой.
Индивидуальный отчёт о научной деятельности в 2010 году Гуськов Андрей Евгеньевич К.т.н., н.с. Лаборатория информационных ресурсов.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
1 Сервисы для читателей научной периодики на платформе eLIBRARY.RU Минск, октябрь 2012.
Автоматизация деятельности архивной отрасли Система «АРХИВНЫЙ ФОНД» (версия 4.1) Управление государственной архивной службы Новосибирской области 2010.
О. М. Атаева, А. А. Каленкова, В. А. Серебряков ВЦ РАН ( Москва )
А. Г. Матвеев Компания «ТОРИНС» Семинар 1 Основные компоненты системы.
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
1 Диаграммы реализации (implementation diagrams).
ГБУК КемОНБ им. В.Д. Федорова ЭЛЕКТРОННАЯ БИБЛИОТЕКА КУЗБАССА ВАРИАНТ РАЗВИТИЯ В.А. Никулина директор ГБУК КемОНБ им. В.Д. Федорова, президент НБП «Кузбасские.
Интеграция ресурсов электронных библиотек, доступных по протоколу Z39.50 и электронных архивов, использующих протокол OAI-PMH. Колосов К.А. ГПНТБ России.
НАЧАТЬ ТЕСТ по КИТ2 Разработчики: Оскерко В.С., доцент, к.э.н. Панько Н.Г., студентка ДФФ-1, 2-й курс 2011 г.
Серия телеконференций «Новое решение "1С:ERP Управление предприятием 2.0 ", мая 2014 г. Потребность к производству C:ERP. Управление производством.
Лекция 1. ЧТО ТАКОЕ ГЕОИНФОРМАЦИОННЫЕ СИСТЕМЫ? Харитонов А. Ю. Министерство образования и науки Украины Донецкий национальный технический университет Кафедра.
Система управления электронной библиотекой LibMeta Каленкова Анна ВЦ РАН.
Транксрипт:

Г ЕОГРАФИЧЕСКИЙ ПОИСК В ИНФОРМАЦИОННЫХ СИСТЕМАХ С ИСПОЛЬЗОВАНИЕМ РЕТРОСПЕКТИВНОГО ТЕЗАУРУСА Скачков Д. М., Жижимов О. Л. Институт вычислительных технологий СО РАН

П ЛАН ДОКЛАДА Зачем нужен географический поиск в «негеографических» информационных системах? Как организовать такую функциональность? Что такое ретроспективный тезаурус и как он связан с задачей? 2

«Н ЕГЕОГРАФИЧЕСКИЕ » ИНФОРМАЦИОННЫЕ СИСТЕМЫ Информационные системы общего назначения (или «негеографические» информационные системы) – ИС, изначально не ориентированные на обработку географических данных. электронные каталоги библиографические указатели архивы цифровых объектов: изображений, аудио, видео и пр. 3

Р АЗВИТИЕ ГЕОГРАФИЧЕСКИХ СЕРВИСОВ Google Maps: 4 Контент

Н Е ТОЛЬКО ФОТО И ВИДЕО … Не только медиа контент может быть привязан к областям земной поверхности Географическая привязка – логическая связь цифрового объекта с некоторой областью земной поверхности. Географическая привязка информации в существующих информационных системах позволит существенно повысить функциональность поисковых и визуализационных сервисов: Поиск записей, относящихся к некоторой области на поверхности Земли Отображение на карте записей из ИС В существующих информационных системах общего назначения отсутствует такая функциональность 5

Д ЛЯ КАКИХ СИСТЕМ МОЖЕТ БЫТЬ ИНТЕРЕСНА ГЕОГРАФИЧЕСКАЯ ПРИВЯЗКА Библиографическая информация: электронные каталоги библиографические указатели базы данных по научно-технической информации Базы метаданных: полнотекстовые базы данных коллекции традиционных музеев и архивов архивы цифровых объектов: изображений, аудио, видео и пр. Возможно, другие «негеографические» ИС, нуждающиеся в дополнительных возможностях поиска. 6

П РИМЕР ПОИСКА В СИСТЕМЕ БЕЗ ПРИВЯЗКИ Как искать статьи, содержащие упоминания населенных пунктов Новосибирской области? Поиск по словосочетанию «Новосибирская область» выдаст неполный список, т.к. статья необязательно содержит упоминание Новосибирской области. Мы должны составить список всех населенных пунктов Новосибирской области Мы должны не забыть, что некоторые населенные пункты изменили свое название Мы должны не забыть, что некоторые населенные пункты были сняты с учета (исчезли) Мы должны не забыть, что у некоторых населенных пунктов есть несколько вариантов названия 7

К АК ДОЛЖНА ВЫГЛЯДЕТЬ ПРИВЯЗКА Географическая привязка – логическая связь цифрового объекта с некоторой областью земной поверхности. Область может быть описана: Геометрическим объектом (точка, окружность, полигон) с определенными географическими координатами. Названием географического объекта. Название должно быть получено из тезауруса географических наименований (из которого и можно получить координаты). Описание области помещается в метаданные объекта 8

И НФОРМАЦИОННО - ПОИСКОВЫЙ ТЕЗАУРУС Информационно-поисковый тезаурус – контролируемый словарь терминов на естественном языке, явно указывающий отношения между терминами и предназначенный для информационного поиска. 9

Д ВА ВАРИАНТА ПРИВЯЗКИ Непосредственное задание координат Привязка посредством тезауруса географических наименований 10

П ОЧЕМУ НЕ ПЕРВЫЙ ВАРИАНТ Привязка с помощью непосредственного задания координат обладает некоторыми серьезными недостатками: Необходимость использования хранилищ данных, поддерживающих работу с географическими объектами Поиск по названию географического объекта? Существенное изменение имеющихся систем Дублирование поисковой функциональности 11

П РИВЯЗКА ПОСРЕДСТВОМ ТЕЗАУРУСА Привязка при помощи тезауруса тоже не лишена недостатков, но позволяет избежать проблем простой координатной привязки Нет необходимости существенно менять схему данных Возможен поиск по географическому названию Не привязаны к функциональности хранилища данных 12

П РОБЛЕМЫ ПРИ ПРИВЯЗКЕ К ТЕЗАУРУСУ Привязка с использованием тезауруса географических наименований может быть неоднозначной, поскольку: географические названия зависят от времени и языка любой географический объект может включать в себя множество других географических объектов Поэтому используемый тезаурус должен: 1. Содержать информацию о названиях и координатах географического объекта в разные моменты времени и для различных языков 2. Содержать связи, отражающие взаимное расположение объектов 3. Содержать ссылки на нормативные документы с информацией об изменении характеристик объекта с течением времени 4. В процессе поиска учитывать также и временной аспект 13

Н УЖЕН СВОЙ ТЕЗАУРУС … Решено разработать тезаурус географических наименований, позволяющий решать следующие задачи: Прямое и обратное геокодирование Ретроспективное прямое и обратное геокодирование Простой процесс интеграции с существующими системами 14

Г ЕОКОДИРОВАНИЕ Геокодирование – перевод из терминов географических названий в термины географических координат. Ретроспективное геокодирование – геокодирование с учетом изменений свойств географических объектов с течением времени. 15

К АК ОРГАНИЗОВАТЬ РЕТРОСПЕКТИВНОЕ ГЕОКОДИРОВАНИЕ Каждое изменение свойства объекта отражено в документе Документу присущи, как минимум, два основных свойства: «дата начала действия» и «описание» Изменяющиеся свойства связаны с двумя документами: beginDocument – документ, вводящий в силу конкретное значение свойства объекта endDocument – документ, завершающий срок действия конкретного значения свойства объекта 16

П РИМЕР ДОКУМЕНТОВ 17

Д ОСТУП К ТЕЗАУРУСУ Для упрощения процесса интеграции с другими информационными системами доступ к тезаурусу удобнее реализовать по протоколу Z39.50 (протокол доступа к разнородным источникам данных) Автоматически получаем доступ по SOAP/SRW и HTTP/SRU 18

Н А НИЗКОМ УРОВНЕ Для реализации доступа по Z39.50 нужно определиться с профилем доступа (списком поисковых атрибутов). Профиль назовем RGeoThes. Согласно профилю определяем отображение реляционной схемы на профиль RGeoThes Используем СУБД PostgreSQL для хранения данных, она содержит встроенную поддержку необходимых типов (point, box, polygon, line, circle) и функции по работе с ними 19

П РИМЕР ПОИСКОВЫХ ЗАПРОСОВ ресурсы, опубликованные в Новосибирской области с 12 октября 2001 года по 10 января 4=108 {Новосибирская cip 4=210 { , } ресурсы, опубликованные в Новосибирской области с 12 октября 2001 года по 10 января 2007 года cip cip 4=202 cip cip 4=210 { , } 20

И НДЕКСАЦИЯ ДАННЫХ В СУЩЕСТВУЮЩИХ СИСТЕМАХ В основе лежит индексация текста терминами из заданного словаря. Однако, с некоторыми особенностями. Необходимо учитывать морфологию Омонимичность названий друг другу и другим словам Подробнее: Барахнин В. Б., О. Л. Жижимов, А. А. Куперштох, Д. М. Скачков, А. М. Федотов. Алгоритм извлечения из текстовых документов географических названий, отражающих содержание // Вестник Новосибирского государственного университета. Серия: Информационные технологии. Том 10. Выпуск 1. - Новосибирск: Новосибирский государственный университет, С ISSN

П РОБНЫЙ ПОИСК Условия поиска: Ключевое слово «конференция» Временной период: с 1985 г. по 2011 г. Географическая область: Байкальская природная зона Поиск производим по заголовкам статей Результаты: По словосочетанию «Байкальская природная зона» - 0 результатов По словосочетанию «Байкал» - 9 результатов С использованием тезауруса – 13 результатов 22

П АРАМЕТРЫ 23

Р ЕЗУЛЬТАТЫ ПОИСКА (1) 24

Р ЕЗУЛЬТАТЫ ПОИСКА (2) 25

З АКЛЮЧЕНИЕ В докладе был рассмотрен вариант организации географического поиска в «негеографических» информационных системах посредством тезауруса ретроспективного геокодирования. На основе описанной технологии сегодня формируется ряд информационных систем в рамках научно-исследовательских проектов Сибирского отделения РАН 26

С ПИСОК ЛИТЕРАТУРЫ 1. Abresch J., Hanson A., Heron S., Reehling P. Integrating Geographic Information Systems into Library Services: A Guide for Academic Libraries // - ISBN http://elib.sbras.ru:8080/jspui/handle/SBRAS/ API Карт Google - Google Maps API Google Developers 3. Catalogue Interoperability Protocol (CIP) Specification - Release B // CEOS/WGISS/ICS/CIP-B, Issue April Барахнин В.Б., Жижимов О.Л., Куперштох А.А., Скачков Д.М., Федотов А.М. Алгоритм извлечения из текстовых документов географических названий, отражающих содержание // Вестник НГУ. Сер.: Информационные технологии Т С ISSN Барахнин В.Б., Куперштох А.А. Алгоритм координатного индексирования электронных научных документов // Труды международной конференции «Вычислительные и информационные технологии в науке, технике и образовании». Казахстан, Павлодар, сентября 2006 г. Т. I. C Барахнин В.Б., Нехаева В.А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии // Вычислительные технологии Т. 12. Специальный выпуск 2. С Библиотека морфологического анализа phpМorphy. – 8. Жижимов О.Л., Мазов Н.А. Об использовании географических координат при поиске библиографической информации // Научные и технические библиотеки С Жижимов О.Л., Мазов Н.А. Проблемы географической привязки цифровых объектов в электронных библиотеках // XII Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2010 (Казань, Россия, ): Труды конференции. - Казань: Казан. ун-т, С ISBN Карты Google Скачков Д.М., Жижимов О.Л. Об интеграции географических метаданных посредством ретроспективного тезауруса // Информатика и ее применения. – – Скачков Д.М., Жижимов О.Л. Об использовании ретроспективного геокодирования для географического поиска в электронных библиотеках // XIII Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2011 (Воронеж, Россия, ): Труды конференции. - Воронеж: Издательско- полиграфический центр Воронежского государственного университета, С ISBN Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации. Новосибирск: Наука,

Б ЛАГОДАРЮ ЗА ВНИМАНИЕ ! 28