Многоуровневые цифровые архивы: стратегия построения и опыт создания Л.И. Рубанов Н.С. Мерзляков В.Н. Карнаухов Институт проблем передачи информации РАН, Москва При поддержке Российского фонда фундаментальных исследований (проект )
Предпосылки работы Более чем 30-летний опыт ИППИ РАН в области цифровой обработки изображений: Обработка результатов радиолокационной и фотографической съемки космических объектов и небесных тел (Луна, Венера, Марс...) Обработка аэрофотоснимков и результатов дистанционного зондирования земной поверхности (в оптическом диапазоне, инфракрасном диапазоне и многозональных) Обработка изображений в задачах цветовой сегментации и медицинской диагностики Цифровая голография: синтез, анализ и моделирование когерентных волновых полей
Цифровая обработка изображений в космических исследованиях и дистанционном зондировании
Цифровая обработка изображений в задачах цветовой сегментации и медицинской диагностики
Цифровая голография: синтез, анализ и моделирование когерентных волновых полей
Предпосылки работы Разработка проектов новых технологий для сохранения культурного наследия: Восстановление и архивирование рукописных текстов Рукописная картотека древнерусского словаря XI-XIX в.в. (свыше 2 млн. карточек более чем за 100 лет, внесен в перечень культурных ценностей ЮНЕСКО) Разработка цифровой коллекции редких фотографий Цифровой архив фотодокументов ЛАФОКИ РАН (более 40 тыс. черно-белых и цветных негативов и фотографий по истории российской науки за более чем 120 лет) Цифровая реставрация и каталогизация водяных знаков Методы и инструментальные средства цифровой реставрации водяных знаков, встречающихся на бумаге древних рукописей, и создание базы изображений этих водяных знаков и их описаний (совместно с Австрийской академией наук)
Задачи реставрации и сохранения культурного наследия
Тематическая обработка и идентификация средневековых водяных знаков Водяной знак Тема и разновидности "колокол"
Инструментальная система для обработки водяных знаков Тематическая обработка и идентификация средневековых водяных знаков
Архив Российской академии наук (АРАН) Образован в 1720 г. и является старейшим научным архивом России. Хранит документы Академии наук за всю ее более чем 275-летнюю историю, а также материалы по истории российской и зарубежной науки. Научный потенциал АРАН содержится в более чем 2000 архивных фондах, включающих около 1 млн. единиц хранения: - фонды учреждений Академии наук и научных обществ, - личные фонды выдающихся ученых (М.В.Ломоносова, Л.Эйлера, В.И.Вернадского, К.Э.Циолковского, С.В.Ковалевской, Н.И.Вавилова, И.И.Мечникова и др.), - различные тематические коллекции (медалей и знаков, старинных рисунков и т.п.). Сегодня основная форма работы пользователей с архивными материалами - предоставление их через читальный зал АРАН. При такой процедуре трудно обеспечить широкий доступ пользователей к архивным материалам и при этом гарантировать их физическую сохранность, равно как и целостность интеллектуальной собственности.
Основные задачи проекта Реставрация и надежное сохранение фотодокументов и других изобразительных материалов Цифровые методы обработки и сжатия изображений Методы индексации и поиска архивной информации Применение типовых структур и баз данных для создания тексто-графических цифровых архивов Многоуровневая система доступа к архивным данным Общедоступность vs. Интеллектуальная собственность Технология параллельного наполнения цифрового архива Автоматизация формирования и ведения вторичных архивов Репликация на CD/DVD-ROM и представление в Интернет
Цифровая реставрация архивных изображений Исходное изображениеРезультат обработки
Исходное изображениеРезультат обработки Цифровая реставрация архивных изображений
Исходное изображениеРезультат обработки
Цифровая реставрация архивных изображений Исходное изображение Результат обработки
Элементы стратегии построения и наполнения цифрового архива Приоритетность Иерархичность Переносимость Эффективность Доступность
Стратегия: приоритетность Соображения: Частота обращения к материалу (интерес пользователей) Степень сохранности оригинала Категория архивной единицы и степень ее уникальности Коммерческая перспективность (реклама?) Доступные ресурсы, технологии и технические средства Выбранные приоритеты для материалов АРАН: Личные фонды выдающихся ученых, президентов Академии и возглавлявшихся ими учреждений, а также наиболее интересные тематические коллекции (медалей и знаков, рисунков, гравюр...) Рукописные документы (включая рисунки, чертежи, карты и т.п.) Авторизованная машинопись (документы с авторской правкой) Фотодокументы – фотографии, негативы, слайды… … кинопленки, видео- и аудиозаписи Выбор очередности перевода в цифровую форму архивных фондов, коллекций, единиц хранения (и самих архивов)
Стратегия: иерархичность Построение таких информационных и организационных структур, в которых было бы возможным управлять степенью полноты и детальности предоставляемой информации Соображения: Обеспечение постепенного наполнения цифрового архива с учетом установленных приоритетов Многоуровневая сеть регионального распределения и репликации Развертывание в неоднородной информационной инфраструктуре Выбранная структура (в деталях позже): Первичный цифровой архив Региональные реплики первичного архива Вторичные цифровые архивы различных видов (в т.ч. CD/DVD и Web)
Стратегия: переносимость Сохранение результатов начатой деятельности в условиях смены поколений вычислительной техники, программного обеспечения и носителей информации Соображения: Соблюдение международных стандартов хранения информации Применение типового системного программного обеспечения, языков описания и манипулирования данными Отказ от привлекательных, но заведомо не переносимых решений Некоторые принятые решения: Переносимые стандартные форматы неподвижных изображений (TIFF, JPG, PNG) Ориентация на языки SQL, HTML, Java Основа информационного каркаса - реляционные базы данных (для всей не изображенческой информации) Отдельный банк изображений, логически связанный с записями базы данных
Динамическая связь базы данных с банком изображений
Стратегия: эффективность Соображения: Инженерные и организационные решения (с учетом перспективы) Выбор разрешения и глубины цвета при сканировании Определение метода и степени сжатия графической информации Сочетание ручных и автоматизированных методов оцифровки и обработки исходной информации Выбор объемов цифровой реставрации изображений и вычитки текстовых документов после автоматического ввода Выбранные методы: Дифференцированный подход к обработке и цифровой реставрации изображений Отложенная обработка в основании пирамиды множественных разрешений изображения Нахождение оптимального баланса достигаемого качества и требуемых затрат ресурсов
Стратегия: доступность Два аспекта: Возможность параллельного многоуровневого доступа к архивным базам данных в различных информационных средах в России и за рубежом, в том числе в регионах, слабо охваченных доступом в Интернет Простота и глубина поиска необходимой информации в цифровом архиве Решения: Распределенная трехуровневая структура цифрового архива Сохранение всех существующих архивных атрибутов и дескрипторов Разработка новых признаков и дескрипторов для тематического поиска и отбора документов Добавление новых ассоциативных связей между фондами и единицами хранения по мере их перевода в цифровую форму
Трехуровневая структура цифрового архива
Опыт реализации изложенной стратегии На материалах АРАН на сегодняшний день разработаны и наполнены следующие цифровые архивы: Первичный архив - База данных всех членов Академии наук с 1724 г. Вторичные архивы для нее на CD-ROM и в Интернет Коллекция медалей и знаков АРАН Фотодокументы персональных фондов президентов Академии: А.П. Александрова М.В. Келдыша С.И. Вавилова (находится в стадии наполнения) Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри персонального фонда акад. Н.А. Морозова)
База данных всех членов Академии наук с 1724 г. (4955 чел.), включающая их краткие биографии, научную специализацию, академические должности, научные награды (все на русском и английском языках), а также свыше 7000 портретов. Пример формы:
На базе этого первичного цифрового архива были созданы два вторичных архива: - CD-ROM "Российская Академия Наук: " (вышло два издания) - Ресурс в Интернет:
Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:
Коллекция медалей и знаков (АРАН, разряд XIII). В этой разработке была реализована возможность многомасштабной визуализации физических объектов, в том числе с большим увеличением. Примеры форм:
Персональные фонды президентов Академии: - А.П. Александров (АРАН, ф. 1916) - свыше 600 фотодокументов. - М.В. Келдыш (АРАН, ф. 1729) - свыше 500 фотодокументов Пример формы:
Коллекция портретов (фотографий, рисунков, гравюр) российских и зарубежных ученых, собранная Мусиным-Пушкиным (содержится внутри фонда акад. Н.А. Морозова - АРАН, ф. 543) - свыше 700 документов. Пример формы:
Хотя научные исследования и разработки по созданию тексто-графического архива РАН еще продолжаются, реализованные к настоящему времени разделы цифрового архива уже используются и встречают положительную оценку пользователей, что подтверждает правильность и продуктивность выбранной стратегии, позволяет рекомендовать ее для применения в других отраслях архивного дела. Мы надеемся, что данная технология может быть полезна при переводе в широкодоступную цифровую форму и других архивов - неотъемлемой составляющей мирового культурного наследия. Литература 1. И.М. Бокштейн, Н.А. Кузнецов, Н.С. Мерзляков, Л.И. Рубанов. Возможности и средства цифровой реставрации архивных рукописных текстов // Информационные технологии и вычислительные системы, 1, М.:ИВВС РАН, С I.M. Bockstein, V.N. Karnaukhov, N.A. Kuznetsov, N.S. Merzlyakov, and L.I. Rubanov, "Digital restoration, enhancement, and archiving of photo-documents," Digital Image Processing and Computer Graphics (DIP-97), Proc. of SPIE, Wenger E., Dimitrov L.I. (editors), 3346, pp , Vienna, V. Karnaukhov, E. Wenger, N. Merzlyakov, A. Haidinger, F. Lackner, "Thematic processing and retrieving of watermarks," Image Processing and Computer Optics (DIP- 94), Proc. of SPIE, Kuznetsov N.A., Soifer V.A. (editors), 2363, pp , Samara, L.I. Rubanov, N.S. Merzlyakov, V.N. Karnaukhov, and N.M. Osipova, "Strategy of creation of digital archives accessible through the Internet", Internet Imaging III, Proc. of SPIE, G.B. Beretta, R. Schettini (editors), 4672, pp , San Jose, 2002.