Информационные модели и технологии в организации работы научного сообщества по публикации и анализу коллекций исторических документов Кравцов Игнат Вадимович.

Презентация:



Advertisements
Похожие презентации
Модели и принципы построения прототипа системы электронной библиотеки вуза © Д.С. Зуев Казанский государственный университет Специальность
Advertisements

Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Конференция EVA Москва, 4 декабря 2008 года © Маркарова Тамара Сергеевна НПБ им. К.Д. Ушинского РАО, Москва. +7 (495)
ИНФОРМАЦИОННО- ОБРАЗОВАТЕЛЬНАЯ СРЕДА – ВАЖНЕЙШИЙ КОМПОНЕНТ НОВОЙ СИСТЕМЫ ОБРАЗОВАНИЯ.
Из проекта ГОС по направлению «Прикладная информатика» © МЭСИ, 2006.
ГСНТИ задание 2.2«Разработать сервер доступа к библиотечным информационным ресурсам по протоколу z39.50 и систему обслуживания по принципу «Одно.
Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д.,
Федеральные государственные образовательные стандарты.
Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Разработка модуля построения отчетов в единой информационной системе КузГТУ Научный руководитель: ст. преподаватель кафедры ВТ и ИТ Лу Павел Цзуйлянович.
Информационные технологии 1. Понятия: информатика и информационные технологии 2. Важнейшие понятия информатики 3. Основные информационные и коммуникационные.
Тема 3. Методология политической науки Институт международных отношений и социальных технологий Кафедра Всеобщей истории, политологии и социологии ИМОСТ.
«Создаем интернет-сайт» Элективный курс классы Тетюшкина Е.Н., учитель информатики и ИКТ МОУ СОШ 1.
Структура предметной области информатики -теоретическая информатика -средства информатизации -информационные технологии -социальная информатика.
Концепция создания нормативно-правовой базы, методических основ и систем информационного обеспечения органов исполнительной власти.
Архивная фактографическая система Марчук А.Г. (Новосибирск) Марчук П.А. (Новосибирск)
Система управления электронной библиотекой LibMeta Каленкова Анна ВЦ РАН.
Транксрипт:

Информационные модели и технологии в организации работы научного сообщества по публикации и анализу коллекций исторических документов Кравцов Игнат Вадимович Петрозаводский государственный университет Научный руководитель: кандидат физико-математических наук, доцент А. Г. Варфоломеев Информационные системы и процессы, правовые аспекты информатики

Цели работы Разработать модель организации многомерного пространства данных и знаний, необходимого для создания современной, аналитической и динамической сетевой публикации; Предложить архитектуру информационной системы (класса систем) с использованием этой модели.

Задачи работы Разработка абстрактной модели описания структуры и семантики источников, а также окружающего их информационного поля; Описание методов и технологий формализации и анализа текстов и коллекций исторических документов, отражение требований этих методов в модели системы; Выработка концепции современной сетевой публикации коллекции исторических источников с учетом возможностей универсальной модели организации данных; Разработка методологии и инструментария взаимодействия в сетевом сообществе; Включение информационного поля сообщества в семантический веб, обеспечение связности с другими системами сети; Проектирование открытой архитектуры информационной системы сообщества, состоящей из набора сервисов и информационных библиотек; Проектирование хранилища данных для консолидации извлеченных из текстов знаний сообщества.

Предметная область Коллекции текстов в корпусной лингвистике, изображения и тексты печатных источников или рукописей в истории и источниковедении, рисунки и фотографии предметов, привязанные к планам раскопок в археологии Коллекции, представленные в Интернете, составляют основу для формирования сетевых сообществ исследователей Использование Grid-технологии и методологии e- Science в гуманитарных науках. Не использование объединенных вычислительных мощностей, а территориальное распределение сбора и хранения самих данных, разработка стандартов для свободного обмена данными, а также сервисов, позволяющих с ними работать

Проекты сетевых публикаций Базы данных сканированных изображений с метаинформацией об источнике (CEEC, CESG) Электронные тексты источников в виде полнотекстовых реляционных баз данных или XML- документов (Манускрипт, MEP) Инициативы сетевых публикаций в виде консорциумов (TEI) Cреды для совместной работы с текстами (TextGrid) Открытые публикации научных трудов (Соционет) Фактографические системы (электронный архив документов А.П. Ершова)

Аналитическая публикация Традиционные публикации –Изображения –Транскрипции Аналитические публикации –Несколько форматов источников –Инструменты исследования –Методики исследования –Совместная работа –Междисциплинарность

Вопросы публикации

Формализация текстов Основой практически любого метода исследования текста является некоторая его формализация, то есть замена текста обобщенными количественными показателями, качественными категориями, либо специальными моделями(графы, деревья), отражающими структуру и тематику текста Вектора частот контент-анализа Графовые (сетевые) модели текстов

Модель структурно-семантического пространства Абстрактная модель описания структуры и семантики текстов. Требования: –выделять произвольные единицы текста как обособленные объекты; –формировать связь произвольного числа объектов; –позволять строить произвольные иерархии объектов и связей; –соотносить как объекты, так и связи с произвольными смысловыми категориями; –привязывать к объектам и связям различные показатели (числовые, номинальные, вероятностные и пр.); –позволять переходить от моделей текстов к моделям более высокого уровня (например, модель коллекций текстов)

Точки в «пространстве»

Множественная разметка текстов Разметка считается множественной, так как наносится в несколько этапов Общая разметка состоит из совокупности одноуровневых разметок, которые могут частично пересекаться между собой Возможность работы группы пользователей над одним историческим документом, в любых интересующих пользователей дисциплинах

Многомерный анализ Модель структурно-семантического пространства можно представить в виде многомерной базы данных (применение технологии Data warehouse) Измерения структурно-семантического пространства определяют размерность гиперкуба, а точки представляют ячейки гиперкуба Схемы разметки будут представлены «таблицами измерений», а сама примененная разметка – «таблицами фактов» Построение хранилища данных позволит в перспективе применить к нему средства многомерного и интеллектуального анализа данных

Текст-ориентированная разработка Подход к разработке в рамках парадигмы Model- driving engineering Процесс разработки опирается на моделирование структуры и семантики текстов и взаимосвязей текстов и прочих элементов или объектов системы Моделью считается любая формализация текстов и информации сокрытой в текстах, которую мы называем знаниями Подход «текст-ориентированной» разработки (text- driven): модули и сервисы системы проектируются так, чтобы передавать друг другу информацию в виде универсальных текстовых документов, файлов в XML-формате

Открытая система Принцип отчуждаемости текстов –Возможность извлечения текста из системы –Возможность обмена между системами Принцип открытости систем –Свободный доступ –Обмен информацией –Обмен сервисами –Машиночитаемые описания

Сетевое сообщество Единое информационное пространство –Межличностное взаимодействие –Разделение ресурсов и инструментов –Связывание информации –Обмен явными и неявными знаниями

Metaweb

Апробация RCDL ( ), Современные информационные технологии и письменное наследие (2006, 2008), Конференции Ассоциации «История и Компьютер» (2006, 2008), Интернет и современное общество (2006, 2007), Научный сервис в сети Интернет (2007), Научные чтения Даугавпилского университета (2008, 2009) Проект «Источник» Сообщество «Письменное наследие»