Электронная библиотека с распределенным полнотекстовым поиском: на пути к функциональной интеграции ресурсов и сервисов С.Х.Ляпин ген. директор ООО «Константа»,

Презентация:



Advertisements
Похожие презентации
Электронная музейная библиотека нового поколения в интегрированной информационной среде областного краеведческого музея С.Х.Ляпин Архангельский областной.
Advertisements

Информационная система T-Libra (v.6.х) для создания многофункциональных электронных библиотек С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Архангельск, Россия)
Электронная библиотека и электронная коллекция в составе интегрированной информационной среды (проекты АОЦПК и АОКМ) С.Х.Ляпин, А.В.Куковякин ООО «Константа»
Полнотекстовый поиск в электронной библиотеке с большим количеством многоязычных ресурсов С.Х.Ляпин, А.В.Куковякин ООО «Константа» (Россия) Архангельский.
ЭБС IQlib - это электронно-библиотечная система, которая полностью отвечает критериям современного ресурса информационно-образовательной направленности.
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
АИБС Автоматизированная интегрированная библиотечная система (АИБС) «МегаПро»: новые возможности для библиотек.
Технологическое обеспечение процесса создания полнотекстовых ресурсов для электронной библиотеки на базе информационной системы T-Libra Вадим Олейник,
Методы реализации интерфейсов обеспечения библиотечных сервисов Никандрова Екатерина Владимировна Группа 5305.
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
ГСНТИ задание 2.2«Разработать сервер доступа к библиотечным информационным ресурсам по протоколу z39.50 и систему обслуживания по принципу «Одно.
ИРБИС 128: опыт внедрения, преимущества и новые решения для библиотек Сергиенко Татьяна Васильевна, вед. специалист Ресурсного центра БИК СФУ.
Система управления электронными библиотеками. Состояние Ограниченная доступность электронных представлений в центральных ЭБ Медленная оцифровка изданий.
Система управления электронными библиотеками Захаров А.А., Филиппов В.С. Вычислительный центр им. Дородницина РАН г. Москва.
Модели и принципы построения прототипа системы электронной библиотеки вуза © Д.С. Зуев Казанский государственный университет Специальность
1 «Разработка методического и технологического обеспечения размещения и сбора сведений об образовательных организациях, используемых в процедурах государственной.
ТЕХНОЛОГИИ И СЕРВИСЫ ЦИФРОВЫХ КОЛЛЕКЦИЙ В ЭЛЕКТРОННОЙ БИБЛИОТЕЧНОЙ СИСТЕМЕ Ольга Баркова ООО "Специализированный центр "БАЛІ" (Киев, Украина) (Киев, Украина)
Е-МАСТЕР ® Документооборот Программно-методический комплекс (Система управления организационной информацией) +7 (812)
Быстрая разработка кадастровых приложений муниципального уровня с использованием системы «ИнМета» Вячеслав Томилин ООО НВЦ «Интеграционные технологии»
АИБС Интеграция с сайтом библиотеки Авторизация и аутентификация пользователей Личный кабинет читателя Формирование запросов на поиск с использованием.
Транксрипт:

Электронная библиотека с распределенным полнотекстовым поиском: на пути к функциональной интеграции ресурсов и сервисов С.Х.Ляпин ген. директор ООО «Константа», (Россия); зав. отделом ИРТ Архангельского краеведческого музея А.В.Куковякин зам. ген. директора ООО «Константа», главный специалист-эксперт Архангельского краеведческого музея XX Международная Конференция "Крым 2013" Судак 08 – 16 июня 2013

Содержание Тенденции в развитии современной информационной среды. Полнотекстовый поиск в электронной библиотеке. Распределенный полнотекстовый поиск в среде Интернет. Проекты: –межмузейная распределенная библиотека; –распределенная библиотека НП «ЭЛБИ».

Тенденции в развитии современной информационной среды. Продвинутый полнотекстовый поиск, дополняющий поиск по каталогу. Функциональная интеграция ресурсов и сервисов (каталоги, библиотеки, коллекции, архивы, энциклопедии, реестры памятников, виртуальные экспозиции и т.д.). Распределенная информационная среда (включающая электронную библиотеку с распределенным полнотекстовым поиском) –на разных уровнях (региональный, отраслевой…); –с различной степенью централизации / децентрализации;

О продвинутом полнотекстовом поиске. Полнотекстовый поиск, позволяющий в автоматизированном режиме сформировать тематическую подборку материала из разных документов, причем с точностью до произвольных единиц полнотекстовой информации. Сами эти единицы информации, тематически связываемые запросом, могут находиться в разных «документах» информационной системы, а для распределенной библиотеки – и на разных пространственно удаленных серверах. Электронные библиотеки с такого рода сервисами должны обеспечивать взаимодействие с существующими АБИС («электронными каталогами») на уровне импорта/экспорта метаданных, в том числе и с прикрепленными к ним файловыми ресурсами. Архитектура: должна быть ориентирована на работу в среде Интернет / Интранет и допускать возможность интеграции на основе унифицированных Веб-сервисов как в локальной сети, так и в распределенной среде. Одна из возможных реализаций такого подхода – информационная система T-Libra 6.x

ИС T-Libra 6.x ® : разработчик и статус программы Информационная система «T-Libra 6.x» для создания многофункциональных электронных библиотек ООО «Константа» (Россия), зарегистрировано в Реестре программ для ЭВМ (Роспатент) Свидетельство от 17 сентября 2007 года.

Назначение и функционал T-Libra 6.x Назначение и функционал T-Libra 6.x многофункциональных электронных библиотек в Интернет/Интранет-архитектуре Создание многофункциональных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: –импорта и индексации полнотекстовых ресурсов, подготовленных в соответствии с требованиями ИС T Libra 6.х; Индексируются файлы в форматах rtf, pdf (символьный), pdf графический с символьным слоем. –импорта файловых ресурсов любых форматов (объемом до 400 Mb. каждый); –импорта/экспорта библиографических данных в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T Libra 6.х. и обратно; –автоматизированной подготовки (с использованием специализированных АРМов) электронных полнотекстовых ресурсов различного вида и формата для последующего ввода их в ИС T Libra 6.х;

Назначение и функционал T-Libra 6.x Назначение и функционал T-Libra 6.x (продолжение) возможности: –автоматического пополнения (при импорте ресурсов) и «ручного» редактирования электронного словаря словоформ; –поиска по Каталогу с тремя формами поиска (однострочная, краткая, полная), поисковой алгеброй, встроенной в функционал полей и структуру формы поиска, а также предметным мультирубрикатором, содержащим библиотечные классификаторы / рубрикаторы (УДК, ББК, ВАК, ГРНТИ и т.д.) в виде баз данных с интерфейсами для их редактирования; –использования для целей хранения и презентации пополняемого файлового хранилища (Депозитария) с файлами произвольного формата и собственным настраиваемым рубрикатором ресурсов (Рубрикатор Депо);

Назначение и функционал T-Libra 6.x Назначение и функционал T-Libra 6.x (окончание) возможности: –гибкого тематизируемого многоязычного полнотекстового поиска различного типа и вида с ранжировкой результатов и различными формами их презентации; –пользовательской оценки найденных абзацев и автоматической сборки итогового тематического файла (опция Собрать тему); –распределенного полнотекстового поиска: (децентрализованная гибридная архитектура): архитектура клиент-сервер в локальной сети каждой организации; одноранговая связь серверов в среде Интернет; клиентский запрос с любого из серверов актуализирует релевантные полнотекстовые ресурсы всей распределенной среды.

T-Libra 6.x: архитектура (блок-схема) Браузер (IE, Opera, Firefox, Safari, Chrome, Яндекс.Браузер) Веб-сервер (Apache) CGI-приложение Сервер приложения (объектная среда, бизнес-логика) РСУБД (MySQL) HTTP CGI named pipe ODBC КлиентСервер

T-Libra 6.x: Основные технические характеристики Многозвенная клиент-серверная Интернет/Интранет архитектура: –Web-browser / Web-server + Application Server / Relational DBMS, с протоколами HTTP, CGI, PIPE API, ODBC. Многоплатформенность: –Клиент: поддерживаются браузеры: IЕ, Opera, Firefox, Safari, Chrome, Яндекс.Браузер; –Сервер: платформа Windows c ODBC-совместимыми СУБД (например, MySQL). «Бизнес-логика» встроена в объектно- ориентированный сервер приложения. –Предметно-ориентированные объекты приложения (сервер приложений) разработаны на объектно-ориентированном языке C++.

T-Libra 6.x: функциональная структура Информационная система T-Libra Пользовательский раздел Административный раздел Каталог Депозитарий Полнотекстовый поиск Оператор ресурсов Оператор словаря Администратор поиск ресурсов по каталогу со встроенным мультирубрикатором поиск и извлечение файловых ресурсов по специализированному настраиваемому рубрикатору гибкий параметризируемый поиск по полнотекстовым ресурсам пополнение ИС ресурсами различного типа пополнение и редактирование многоязычного словаря словоформ управление пользователями, назначение прав доступа к ресурсам ИС, настройки ИС

Главное меню со списком функциональных подсистем T-Libra (административный доступ) Главное меню со списком функциональных подсистем T-Libra (административный доступ) В версии 6.6.x имеется 19 подсистем (4 в пользовательском разделе, 8 в операторском, 7 в административном).

Главное меню со списком функциональных подсистем T-Libra (пользовательский доступ) Главное меню со списком функциональных подсистем T-Libra (пользовательский доступ) Доступны 4 подсистемы: Каталог, Депозитарий, Полнотекстовый поиск, Статистика

Главное меню со списком функциональных подсистем T-Libra (операторский доступ) Главное меню со списком функциональных подсистем T-Libra (операторский доступ) Дополнительно к 4-м пользовательским доступны еще 8 подсистем: Описание ресурсов, Импорт ресурсов, Загрузка ISO, Рубрикатор Депо, Поля каталога, Настройка каталога, Paragen (генерация словоизменительных парадигм словаря словоформ), Пополнение словаря.

Главное меню со списком функциональных подсистем T-Libra (административный доступ) Главное меню со списком функциональных подсистем T-Libra (административный доступ) Доступны дополнительно к пользовательским и операторским еще 7 специальных подсистем: Настойка главного меню, Пользователи и группы, Удаление ресурсов, Настройка папок, Права доступа, Утилиты администратора, Локализация интерфейса.

Пользовательский раздел Каталог Поиск по метаданным с учетом лексико-грамматической парадигматики естественного языка по 6-ми полям: Автор, Заглавие, Ключевые слова, Аннотация, Год издания, Предметная область. Пополняется: –автоматизированно путем импорта из внешних электронных каталогов (АБИС), поддерживающих стандарты семейства MARC («ИРБИС», «МАРК-SQL» и т.д.), –или «вручную» инструментами самой T-Libra (подсистема «Описание ресурсов»). Имеется однострочная, краткая и полная формы поиска. В однострочной форме используется комплексное поле, включающее в себя все поля, кроме поля «Предметная область»; в краткой форме поле Заглавие, Ключевые слова, Аннотация объединены логическим сложением. Поисковая алгебра (операции логического объединения, пересечения, обязательного исключения и обязательного включения термина в запрос) входит в функционал соответствующих полей и структуру формы поиска. Поле Предметная область представляет собой настраиваемый мультирубрикатор, включающий набор стандартных классификаторов (УДК, ББК, ВАК, ГРНТИ), а также иерархический настраиваемый рубрикатор Депо ( Депозитарий), создаваемый с учетом интересов конкретной организации.

Каталогу Выбор формы поиска по Каталогу По умолчанию активна однострочная форма поиска, использующая комплексное поле со встроенной поисковой логикой.

Элементы встроенной справочной системы T-Libra Элементы встроенной справочной системы T-Libra (раскрыта «Справка» к Каталогу в целом) В левом нижнем углу – блок хранилища личных ресурсов пользователя

Каталогу Результат запроса «Региональная культурная политика» в однострочной форме поиска по Каталогу с ранжировкой результатов по релевантности

Каталогу Краткая форма поиска по Каталогу с активированной справкой к комплексному полю «Заглавие, ключевые слова, аннотация»

Каталогу Полная форма поиска по Каталогу с активированной справкой по полю «Предметная область». В запрос включен выбранный по ББК весь раздел 6/8 Общественные и гуманитарные науки

Пользовательский раздел Подсистема «Депозитарий» представляет собой файловое хранилище информации, и содержит файловые ресурсы любого вида и формата (каждый файл может быть объемом до 400 Mb). Имеет собственный настраиваемый рубрикатор ресурсов, навигация по которому позволяет получить как описания ресурсов (метаданные), так и сами электронные ресурсы в файловом виде. Подсистема связана в обе стороны с другими подсистемами пользовательского раздела T-Libra («Каталог» и «Полнотекстовый поиск»), а также с мультимодальными расширениями ИС T-Libra (электронными коллекциями и т.п.).

«Депозитарий» Подсистема «Депозитарий» с навигацией по собственному настраиваемому иерархическому рубрикатору

Пользовательский раздел Полнотекстовый поиск Типы запросов –Абзацно-ориентированный: в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям запроса. –Частотно-ориентированный: создает частотно- ранжированный список терминов (имен существительных) из произведения / произведений на заданную глубину с указанием абсолютной и относительной частоты встречаемости термина.

Пользовательский раздел Полнотекстовый поиск Виды абзацно-ориентированных запросов (запросы ведутся с учетом лексико-грамматической парадигмы слова и поисковой алгебры, встроенной в структуру и поля формы запроса). 1. Простой («однослойный») тематический запрос Производится по терминам, вводимых в комплексное поле запроса. Результат: совокупность релевантных абзацев (включая абзацы сносок и примечаний) из выбранной пользователем «корзины ресурсов». 2. Расширенный («многослойный») тематический запрос. Производится по нескольким терминам, которые одновременно: – а) принадлежат разным тематическим «слоям», определяемых пользователем, при этом количество слоев варьируется, – б) находятся на определенном «расстоянии» между собой в пределах авторского абзаца. Запрос обеспечивает дополнительную, по сравнению с «однослойным», фокусировку запроса. Результатом запроса является совокупность релевантных абзацев (включая абзацы сносок и примечаний), содержащих указанную пользователем терминологическую структуру.

Простой (однослойный) тематический запрос +реставрация +иконы с результатом, ранжированными по документам (используется одно комплексное поисковое поле со встроенной логикой). По базе в 1781 полнотекстовый ресурс найдено 94 абзаца в 30 документах.

Многослойный тематический запрос [реставрация иконы], с дополнительной фокусировкой запроса (расстояние между словами =0, т.е. слова в абзаце примыкают друг к другу). Найдено 18 абзацев в 9 документах (поиск по базе в 1781 полнотекстовый ресурс)

Многослойный тематический запрос [реставрация иконы]. Раскрыт один из абзацев, удовлетворяющий условиям запроса. Красным цветом на желтом фоне покрашены термины, удовлетворяющие дополнительным условиям фокусировки (расстояние между терминами =0). Синим цветом на голубом фоне – все остальные термины запроса

Распределенный полнотекстовый поиск Нет международных стандартов и готовых протоколов (есть стандарты и протоколы только для поиска по метаданным, по Каталогу). В этих условиях в конце начале 2011 г. поставлена и решена задача (ООО «Константа», Архангельск) для частного случая: распределенного полнотекстового поиска для однородных информационных систем, находящихся в различных точках Интернет-пространства. В качестве экспериментальной информационной системы была выбрана T-Libra v.6.6.x, установленная к тому времени в нескольких организациях Архангельска и Москвы.

Гибридная децентрализованная архитектура а) клиент-серверная Интернет-архитектура в локальной сети каждой организации (клиент – браузер), б) одноранговая равноправная (пиринговая) связь серверов организаций друг с другом, в) консолидированная ресурсная база, актуализируемая сквозным пользовательским запросом. Такая архитектура позволяет, а) учесть интересы пользователей (сквозной поиск по всей распределенной среде) б) учесть интересы каждой из организаций, участвующих в создании распределенной среды (ресурсы остаются в ведении каждой из них и расположены на их серверах), в) обеспечить эффективную консолидацию используемых ресурсов, г) организовать координацию действий по созданию и развитию консолидированной ресурсной базы.

Эксперимент по реализации распределенного полнотекстового поиска 5 апреля 2011 года, в рамках ежегодной конференции «Музейные библиотеки в современном мире» (Музеи Московского Кремля) осуществлен эксперимент по реализации распределенного полнотекстового поиска. участвовали электронные библиотеки 5 организаций: 2 - в Архангельске (Архангельский областной центр повышения квалификации специалистов культуры и ООО «Константа») 3 - в Москве (библиотека Музеев Московского Кремля, библиотека истории русской философии и культуры «Дом А.Ф.Лосева», библиотека Государственного исторического музея). Эксперимент воспроизведен во время видеоконференции 8 апреля 2011 года в Российской ассоциации электронных библиотек, а также на других конференциях в гг. ;

Распределенный полнотекстовый поиск (1) Страница формирования распределенного полнотекстового запроса в T-Libra 6.6.x

Распределенный полнотекстовый поиск (2) Всплывающее окно со списком библиотек, актуализированных запросом, и описанием состояния их серверов.

Распределенный полнотекстовый поиск (3) Страница с результатами запроса +Собор +Василия +Блаженного. (все термины обязательно присутствуют в найденных абзацах).

Распределенный полнотекстовый поиск (4) Показаны фрагменты трех найденных абзацев, удовлетворяющих условиям запроса (в книге С.П.Бартенева «Московский Кремль в старину и теперь», Кн.1; из эл. библиотеки Музеев Кремля).

Распределенный полнотекстовый поиск (5) Раскрыт один из абзацев, найденный в результате запроса.

Распределенный полнотекстовый поиск (6) Открыта графическая страница книги С.П.Бартенева, на которой находится найденный абзац.

Распределенный полнотекстовый поиск (7) Всплывающее окно с управляющими элементами для опции Собрать тему предварительно открытых и оцененных пользователем абзацев.

Распределенный полнотекстовый поиск (8) Фрагмент файла с результатами операции «Собрать тему» (по распределенному запросу +Собор +Василия +Блаженного).

ПроектМежмузейная распределенная библиотека Архангельской области Включен в целевую программу развития сферы культуры Архангельской области в гг. Участники: –Архангельский областной краеведческий музей, –10 муниципальных музеев Архангельской области Цель: –создание коллаборации музеев по использованию электронных библиотек с полнотекстовым поиском для информационной поддержки всех основных видов музейной деятельности (экспозиционно-выставочной, экскурсионной, исследовательской, научно-методической, лекционной, атрибуции музейных фондов); –Создание организационно-технологической основы для расширения сотрудничества с музейными и другими организациями по использованию современной информационной среды.

ПроектРаспределенная ЭБС НП «ЭЛБИ» 20 марта 2013 года на VIII конференции НП «ЭЛБИ» анонсирован партнерский проект «Распределенная ЭБС Российской ассоциации электронных библиотек». Его инициаторы и непосредственные участники: РГБ, НП «ЭЛБИ», ООО «Константа». –РГБ предоставляет полнотекстовые информационные ресурсы (с правами доступа к ним из Интернет), –«Константа» предоставляет ИС T-Libra v.6.6.x, –НП «ЭЛБИ» предоставляет технологическую площадку, осуществляет информационное и административное сопровождение проекта. На 1 этапе (2013 г.): –На базе T-Libra 6.6.x будет создана электронная библиотека участников проекта с распределенным полнотекстовым поиском; –осуществлена апробация распределенного полнотекстового поиска; произведены необходимые корректировки функционала; –начата организация подписки на ее информационные услуги (вузы, научные учреждения, публичные библиотеки, отдельные граждане).

Развитие проекта (от ЭБС «ЭЛБИ» к «Альянсу ЭБС») На следующих этапах ( гг.): –расширение состава участников проекта, –создание на договорной основе Альянса электронно-библиотечных систем («Альянс ЭБС»), функционально объединенных распределенной информационной средой, участие государственных, некоммерческих и коммерческих организаций, предоставление на этой основе продвинутых полнотекстовых информационно-поисковых сервисов; НП «ЭЛБИ»: координатор проекта.

Развитие проекта «Альянс ЭБС» ( гг.) Технологическое взаимодействие различных информационно-библиотечных систем, имеющихся у участников проекта – с целью создания транспарентной для пользователя распределенной информационной среды, предоставляющей сервисы продвинутого полнотекстового поиска. Планируются также эксперименты по функциональной интеграции в распределенной среде сервисов электронной библиотеки и других информационных систем: –электронных музейных коллекций, специализированных баз данных (памятников истории и культуры, виртуальных атласов, электронных энциклопедий) и т.д.

Контакты ООО «Константа» (Архангельск): С.Х.Ляпин А.В.Куковякин