Информационные ресурсы Сибирского отделения РАН Объектная модель документов в электронных коллекциях ИРИС Шокин Ю.И., Федотов А.М., Леонова Ю.В.

Презентация:



Advertisements
Похожие презентации
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
Advertisements

Технология хранения, поиска и сортировки информации в базах данных
Система управления электронными библиотеками. Состояние Ограниченная доступность электронных представлений в центральных ЭБ Медленная оцифровка изданий.
Учебная дисциплина «Базы данных» для студентов специальности Прикладная информатика (бакалавриат) Лекция 7 Объектно – ориентированные базы данных.
Учебная дисциплина «Базы данных» для студентов специальности «Информационные системы и технологии» Лекция 5 Объектно – ориентированные базы данных.
Система управления электронными библиотеками Захаров А.А., Филиппов В.С. Вычислительный центр им. Дородницина РАН г. Москва.
Методология объектно- ориентированного программирования.
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Теория экономических информационных систем Семантические модели данных.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Базы данных Access Вводная лекция. Определение базы данных Базы данных - это совокупность тем или иным способом структурированных данных и комплекса аппаратно-программных.
Базы данных – это совокупность сведений (о реальных объектах, процессах, событиях или явлениях), относящихся к определенной теме или задаче, организованная.
БАЗА ДАННЫХ – ОСНОВА ИНФОРМАЦИОННОЙ СИСТЕМЫ ТЕХНОЛОГИЯ ИСПЛЬЗОВАНИЯ И РАЗРАБОТКА ИНФОРМАЦИОННЫХ СИСТЕМ.
Архитектура метаданных WWW. Язык RDF Архитектура метаданных WWW RDF.
Методология IDEF1X (IDEF1 Extended) – язык для семантического моделирования данных, основанных на концепции « сущность - связь ». Является расширением.
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
Информационные системы. Базы данных. Информационная система – любая система обработки информации (шир)
Модуль 1. Математические основы баз данных и знаний.
Билет Табличные базы данных (БД): основные понятия (поле, запись, первичный ключ записи); типы данных. Системы управления базами данных и принципы.
Архитектура и обеспечение систем базы данных. СУБД.
Транксрипт:

Информационные ресурсы Сибирского отделения РАН Объектная модель документов в электронных коллекциях ИРИС Шокин Ю.И., Федотов А.М., Леонова Ю.В

RCDL2002 Объектная модель документов В основу создания ИРИС и электронных коллекций положена концепция динамической системы формирования документов. Используемая концепция основана на расширенной объектной модели документа, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования), т.е. любая сущность реального мира моделируется в виде объекта. Документы

RCDL2002 Объектная модель документов Специфика применения объектно- ориентированного подхода для организации и управления информационными документами и ресурсами потребовала уточненного толкования классических концепций и некоторого их расширения. Это определяется потребностями долговременного хранения объектов во внешней памяти, ассоциативного доступа к объектам, обеспечения согласованного состояния в условиях множественного доступа и тому подобных возможностей, свойственных базам данных. Документы

RCDL2002 Объектная модель документов В целом, конструируя технологию описания документов, мы основывались на методике RDF, которая предлагается консорциумом W3C в качестве стандарта для определения и обработки метаданных сетевых информационных ресурсов. Специфика RDF состоит в том, что механизмы описания ресурсов, не делают никаких предположений относительно специфики предметной области и могут быть удобны для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о документах (ресурсах), но и о самих утверждениях. Документы

RCDL2002 Объектная модель документов В информационном пространстве события, факты и любые другие сущности реального мира существуют только в форме документов. Вследствие этого документ является основным объектом, с которым оперирует любая информационная система. Под документами мы понимаем любое описание реальной сущности (объекта, факта или понятия), которые составляют информационное наполнение системы. Основные схемы данных

RCDL2002 Объектная модель документов В основе реализации системы лежит метамодель, исходящая из того, что документ характеризуется набором присущих ему атрибутов и методов, характеризующих связи с другими документами. Информация о документах системы, их атрибутах и методах поддерживается сервером метаданных, содержащий метаописания системы и метаописания отдельных коллекций. Сервер метаданных является отдельной частью системы, содержащей описание информационной модели предметной области, параметров настройки стандартных функций системы. По информации сервера метаданных осуществляется динамическая генерация схем базы данных системы и ведение служебных баз данных, в которых хранятся данные, обеспечивающие поддержку стандартных функций системы и динамически определяемые отношения между документами. Основные схемы данных

RCDL2002 Объектная модель документов В информационной системе реальные сущности существуют либо непосредственно в виде документа, в который ее представляет: описывает, представляет или моделирует, либо в виде упоминания об этой сущности, которые присутствуют в других документах, т.е. содержат опосредованную информацию об этой сущности (информация об этой сущности или ссылается на информацию об этой сущности). Основные схемы данных

RCDL2002 Объектная модель документов Таким образом, под Документом понимается целостный информационный объект (в том смысле как это понимается в языках объектно- ориентированного программирования) фиксированного Класса, помещенный в информационное пространство ИРИС, который описывает, представляет, отображает или моделирует некоторую сущность реального мира. Класс документа определяется смысловую структуру документа, атрибуты и функции, а так же методы доступа к нему. В Классе задается функциональность: множество Документов, принадлежащих одному Классу, выполняют одинаковые функции. Основные схемы данных

RCDL2002 Объектная модель документов Допускается порождение нового Класса на основе уже существующего Класса – наследование. В этом случае новый Класс, называемый подклассом существующего Класса наследует все атрибуты и методы существующего Класса. В подклассе, кроме того, могут быть определены дополнительные атрибуты, функции и методы. Основные схемы данных

RCDL2002 Объектная модель документов Очевидно, что приведенный выше набор функций документа не является исчерпывающим и может быть расширен. Поясним смысл основных функций документа: Документ-Описание – содержит описание реальной сущности, например, описание некоторой организации или конкретной персоны, информация о которых используется в информационной системе, т.е. содержит информацию о некоторой сущности, но при этом сам не является сущностью. Отметим, что описательными документами также являются описания информационных ресурсов в каталоге или описание библиографических источников. Основные схемы данных

RCDL2002 Объектная модель документов Документ-Представление – непосредственно является конкретной сущностью, например, научная статья, книга или фотография. Кроме того, к этому классу относятся документы, которые содержат информацию о некоторой сущности и при этом сами является сущностью, например, библиографические карточки. Документ-Отображение – является отображением другого документа, т.е. его точной копией или электронным образом, например, PDF (или PS)-файл статьи, сканированный документ и т.д. Документ-Моделирование – моделирует некоторую реальную сущность, например, с помощью компьютерной программы. Основные схемы данных

RCDL2002 Объектная модель документов Помимо принадлежности к Классу Документ обладает Статусом. Статус определяет состояние документа (статичность, версия и т.п.), возможность создания КОПИЙ документа и/или наличие оригинала, наличие авторского и имущественного прав, и т.п. Статус документа

RCDL2002 Объектная модель документов Права собственности и копии документа Владелец документа отвечает за хранение и представление документа пользователями системы. В нашем понимании ИРИС является владельцем всех представленных в ней документов. Документ может не принадлежать системе, т.е. его «владельцем» может быть другая информационная система, а нашей системе содержится только его описание или ссылка на этот документ. Автор – документ, представленный может иметь авторство. Это особенно важно при публикации научных электронных коллекций. Автор несет ответственность за содержание документа. Собственник документа несет ответственность за содержание документа и имеет право пользоваться и распоряжаться принадлежащим ему документом по своему усмотрению (передавать права собственности). Собственниками документов могут быть организации или лица, зарегистрированные в системе. Статус документа

RCDL2002 Объектная модель документов Документ характеризуется наличием оригинала и копий или дубликатов. В распределенной системе Документ может быть представлен в различных местах (а так же иметь нелегальные или платные копии). Оригинал – «первый» экземпляр документа (экземпляр, принадлежащий собственнику или автору). Копия – документ, полностью воспроизводящий информацию оригинала и все его внешние признаки или часть их. Статус документа

RCDL2002 Объектная модель документов Статичность документа и версии документов Документ в информационном пространстве не является застывшим объектом. Документ может передаваться для обработки другим пользователям, над документом выполняются операции, которые могут менять его состояние или значения его свойств, удалять документы и создавать новые документы. Т.е. у документа есть определенный жизненный цикл. Понятие жизненного цикла документа стало, в определенном смысле, уже стандартом. Статус документа

RCDL2002 Объектная модель документов Статичность документа и версии документов Жизненный цикл документа включает в себя следующие фазы: Создание/ввод документов Модификация документов Утверждение документов Опубликование документов Повторное использование документов Устаревание и передача документов в архив Статус документа

RCDL2002 Объектная модель документов Статичность документа и версии документов Коллективный характер работы с документами, требование повторного использования содержащихся в них сведений выводят в число базовых характеристик управление версиями документов, т.е. хранение всех промежуточных вариантов с историей модификаций и возможность порождения нового документа на основе любой из существующих версий. Статус документа

RCDL2002 Объектная модель документов Права доступа к документу Право доступа разрешает пользователю исполнять определённый набор действий над документом. ИРИС имеет функциональные возможности, чтобы установить дифференцированные права доступа для групп или индивидуальных пользователей к документам. Определенные права доступа для документа могут быть назначены для индивидуальных пользователей или группы пользователей. С другой стороны, документы могут также быть сделаны доступными для анонимного доступа из Internet. Документ всегда связан с определенным пользователем своим собственником. Права доступа приписываются документу. Собственнику разрешено изменять права доступа к документу. Имеется три стандартных набора прав доступа к документам: административный, служебный и публичный. Статус документа

RCDL2002 Объектная модель документов Исходя из объектной модели представления информации, в основе нашей системы лежат «метаданные» это структурированные сведения о документе или ресурсе, представляющие его свойства (атрибуты) и функции. На основе метаданных осуществляется поиск документов (ресурсов), вывод результатов поиска, управление ресурсами, взаимодействие с ними. Формальное определение смысловой структуры Документа дается (мета) описанием Класса документа (аналог DTD), в котором каждый тип документов представляется в виде набора объектов со своими характеристиками и атрибутами. ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА

RCDL2002 Объектная модель документов В модели RDF документ рассматривается как частично- упорядоченный набор абстрактных объектов (элементов), обладающие свойствами (атрибутами) и имеющими идентификатор. Любой объект при своем создании получает генерируемый системой уникальный идентификатор, который связан с объектом во все время его существования и не меняется при изменении состояния объекта. RDF позволяет определять произвольные объекты в документе. Атрибуты (имена и значения) должны выбираться из словарей, связанных с теми или иными предметными областями. Формально RDF не накладывает никаких ограничений на значения атрибутов объектов, перекладывая создание соответствующих словарей на заинтересованные организации. Основной словарь имен объектов системы создан на основе словарей стандартных схем метаданных. ОБЪЕКТНАЯ МОДЕЛЬ ДОКУМЕНТА

RCDL2002 Объектная модель документов В качестве схем данных описания ДОКУМЕТОВ ИРИС используются принятые в мировой практике стандартные схемы (GILS, Collection, CIMI, GEO, ZTHES, EXPLAIN, RUSMARC, USMARC). К сожалению публичные источники содержат тезаурусы (описания схем) преимущественно каталогизированной информации (или библиографии) – поэтому основной задачей является выработка корпоративного стандарта описаний. Основные схемы данных

RCDL2002 Объектная модель документов Метаописание Класса документов дает структурные свойства объектов, составляющих документ. При этом структура объекта определяется как линейная последовательность атрибутов и/или иерархий атрибутов. name – имя объекта; title – название объекта; request – обязательность объекта; search – возможность включения в поиск и в навигацию; template_input (output) – шаблоны ввода/вывода; order – порядок объекта ; type – тип объекта; access – уровень доступа к объекту. Основные схемы данных

RCDL2002 Объектная модель документов Каждый объект имеет состояние, поведение и содержание. Состояние объекта – набор значений его атрибутов, значение атрибута объекта – это тоже некоторый объект или множество объектов. Поведение объекта – набор методов доступа (программный код), оперирующих над состоянием и содержанием объекта. Содержание объекта – информационное наполнение данного объекта: это может быть ссылкой (link) на объект или на другой документ или на часть другого документа. Состояние и поведение объекта инкапсулированы в объекте; взаимодействие между объектами производится на основе передачи сообщений и выполнения соответствующих методов. Поведение объекта зависит от запроса к документу, т.е. в зависимости от запроса и уровня доступа объект может менять свое содержание. Основные схемы данных

RCDL2002 Объектная модель документов Электронная коллекция в нашем понимании - это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание структуры. Работа с любой электронной коллекцией разделяется на две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Коллекция: набор однотипных документов -- характеризуется своим описанием и стилем коллекции, а также описанием структуры, входящих в нее документов. Документ: характеризуется своим описанием и стилем документа, а также описанием характеристик (атрибутов, свойств и функций) объектов его составляющих. Объект: определяется заданием типа объекта и описанием его атрибутов, свойств и функций. Информационные ресурсы

RCDL2002 Объектная модель документов Коллекция: метаинформация, стиль Документ: метаинформация, стиль ОБЪЕКТ: метаинформация Структурная схема коллекции

RCDL2002 Объектная модель документов Совокупность документов и их метаописаний, принадлежащих фиксированному Классу и помещенных в информационное пространство ИРИС, является базовой информационной структурой (БИС) системы. Структурная схема коллекции

RCDL2002 Объектная модель документов Основной пользовательской структурой системы является коллекция. Коллекция может состоять либо из одной БИС, либо быть динамическим (в зависимости от запроса) соединением (join) БИС, т.е. ::= [ ] Структурная схема коллекции

RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Конкретные значения характеристик атрибутов объектов (имена и значения) должны выбираться из общих словарей или тезаурусов, которые связанны с предметной областью коллекции, и записываться в соответствии с формальным стандартом для описания элементов метаданных. Помимо унификации доступа, словарь дает схему классификации предметной области коллекции. В соответствии с многоязычной спецификой нашей системы словарь имен объектов является многоязычным.

RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Словарь имен объектов системы – набор многоязычных термов и структурных атрибутов. Многоязычный терм – согласованная совокупность одноязычных термов, содержащих характеристики атрибута на языках системы, и включающая средства для указания их эквивалентности. Средства установления соответствия термов одноязычных версий реализуются введением кода эквивалентности термов (идентификационного кода) в многоязычный терм и кодов языков-компонент для соответствующих одноязычных термов.

RCDL2002 Объектная модель документов Унификация доступа СЛОВАРЬ ИРИС Основа метаописаний – словари. Каждый терм (одноязычный), используемый в объектах ДОКУМЕНТОВ состоит из пяти частей: name – имя терма; value – значение терма (название терма); type - тип терма; note – описание: представляет содержание и внутреннюю природу терма; synonyms – список синонимов терма; relation – поисковый терм..

RCDL2002 Объектная модель документов Унификация доступа Атрибут Type : Word – слово из группы не пустых символов; Word list – одно или несколько слов разделенных пробелами; String – строка рассматривается целиком, без разделения на отдельные слова; Text – одна или несколько строк; Numeric string – строка, представляющая собой число; Date – дата; UID – идентификатор документа; Structure – структура: описывает составной тип объекта.

RCDL2002 Объектная модель документов Информационные ресурсы NameValueSynonyms Personal_nameИмя персоныpname: name_personal First_nameИмяfname, name_first Middle_nameОтчествоmname, name_middle Last_nameФамилияlname, name_last, family_name SexПол Birth_dayДата рожденияBday

RCDL2002 Объектная модель документов Схема обработки запросов Приложение Ввод Редактирование Просмотр Удаление На ввод На поиск ID-код Document Parser Ответ Обновление Просмотр Удаление Ввод Метод запроса (U, L, D) Список ID- кодов List_show

RCDL2002 Объектная модель документов В основу создания ИС положен принцип информационных хранилищ, с учетом поддержки уже функционирующих технологий. В основу технологических решений заложены принципы обработки метаописаний данных на основе серверов метаданных и Z Для СУБД не имеющих средств сетевого доступа используется HTTP-SQL шлюз для организации доступа к данным и (или) технологии Z Принцип построения ИРИС

RCDL2002 Объектная модель документов Динамическая система электронных публикаций Разработана концепция дина- мической системы формиро- вания электронных докумен- тов с среде Интернет, в осно- ве которой лежит представ- ление документа, содержаще- го информацию о конкретных фактах, в виде набора объек- тов со своими характеристи- ками и атрибутами. При реа- лизации используется трех- уровневая модель представ- ления данных и метаданных, поддерживаемая стандартом CORBA. Информационные ресурсы

RCDL2002 Объектная модель документов Электронные коллекции Созданная система позволяет использовать принципиально новые возможности которые предоставляют современные информационные технологии по накоплению, оперативному управлению большими объе- мами биологических данных и решения задач по сохранению биоразнообразия. Позволяет осуществлять комплексные исследования, научный прогноз и принятие обоснованных управленчес- ких решений для рациональ- ного использования природных ресурсов. Информационные ресурсы

RCDL2002 Объектная модель документов

RCDL2002 Объектная модель документов

RCDL2002 Объектная модель документов

RCDL2002 Объектная модель документов

RCDL2002 Объектная модель документов

RCDL2002 Объектная модель документов Благодарю за внимание! Объектная модель документов в электронных коллекциях