Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д.,

Презентация:



Advertisements
Похожие презентации
Информационные модели и технологии в организации работы научного сообщества по публикации и анализу коллекций исторических документов Кравцов Игнат Вадимович.
Advertisements

1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Докладчик: Бульёнов А. В., аспирант Научный руководитель: Шалыто А. А., д. т. н., профессор, зав. кафедрой КТ Методы автоматного программирования в разработке.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
М.Ю.Колодин. РИ Представления и преобразования гипертекстовой информации в специализированных расширяемых форматах «Региональная информатика-2000»
Исполнитель: Утяшева И.А. Научный руководитель: к.ф.-м.н. Винокур В.В.
Организация хранилища единой коллекции цифровых образовательных ресурсов с использованием технологии «ЭЛАД» В.Ю. Лукин.
Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
Классификация моделей Лучший способ избавиться от проблемы – это решить её.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Автоматизация сборки и модификации разнородной компьютерной документации: разработка графического интерфейса приложения и формата файлов проекта. Исполнитель:
Решение задач визуали- зации и поиска мотивов в электронной библиотеке фольклорных текстов Н.Д. Москин (Петрозаводский государственный университет)
I. Информация и информационные процессы 1. Определение информации. Свойства информации. 2. Представление и кодирование информации с помощью знаковых систем.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Моделирование. Работу выполнила Ирина Бахтина Ученица 9 и класса.
Построение наукометрического индекса, устойчивого к спаму Докладчик : Александр Пироженко.
Сетевые интерфейсы обеспечения библиотечных сервисов Руководитель: Татаринов Ю.С. Дипломант: Свириденко С.В. Слайд 1.
Язык запросов XML. XML (Extensible Markup Language) - это новый SGML-производный язык разметки документов, позволяющий структурировать информацию разного.
Транксрипт:

Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д., Варфоломеев А.Г. RCDL Петрозаводский государственный университет

Введение RCDL Существуют сетевые сообщества исследователей в области истории и лингвистики, которые основаны на общих коллекциях текстов. Следующий шаг – предоставление сообществу описаний проведенных исследований. Традиционные публикации: не являются машиночитаемыми, сложно осуществлять функции поиска и сравнения. =>=> Необходим стандартный формат для записи методик и результатов исследований

Существующие технологии RCDL Стандарты представления бизнес-правил, в виде которых могут быть записаны научные выводы, гипотезы, формулы и алгоритмы ( Стандарты представления бизнес-правил, в виде которых могут быть записаны научные выводы, гипотезы, формулы и алгоритмы ( Язык PMML, служащий для записи регрессионных и других предиктивных моделей анализа данных ( Язык PMML, служащий для записи регрессионных и других предиктивных моделей анализа данных ( Форматы группы MKM для обмена математическими результатами ( Форматы группы MKM для обмена математическими результатами ( Язык RuleML, позволяющий записывать различные виды правил ( Язык RuleML, позволяющий записывать различные виды правил ( «Если (условие), то (вывод)» Методику и выводы исследователей можно представить в виде правил:

ИС «Источник» RCDL формулярный анализ средневековых текстов Графическое изображение XML PDF Анализ

Формулярный анализ RCDL Распоряжение Просьба Действия адресата Выполнение адресатом распоряжения

Новые функции ИС «Источник» RCDL интерфейсы для разметки текстов, записи правил разметки, методики исследования (правил вывода) и результатов накапливание коллекций текстов, а также библиотеки правил и выводов поиск и сравнение методик и результатов разных исследователей автоматическая генерация гипотез на основе данных и правил публикация методик и результатов в машиночитаемой форме

Формализация процесса исследования RCDL Разметка текста на логические фрагменты 2.Представление структуры текста Тип блокаХарактеристика блока 1А20 2В25 ……… 3.Анализ текста с помощью правил вывода

Схема процесса исследования RCDL Библиотека правил База знаний сообщества Библиотека разметок Исследователь: текст Разметка Анализ Результаты исследований Представление в виде объекта результаты

Факты и правила в системе RCDL Заданные изначально факты, функции, шаблоны compare_structure(структура 1, структура 2) = n % ЕСЛИ текст 1 – структура 1, текст 2 – структура 2, …. текст n – структура n, (текст 2, …, текст n) имеют тип 1 (структура 1, структура 2, …, структура n) похожи на m% m больше порогового значения ТО текст 1 имеет тип 1 - Формирующиеся по ходу работы исследователей

Пример шаблона на языке Datalog (ядро RuleML) RCDL text 2 type of text type 1 text 1 type of text type 1 text 1 structure of text structure 1 text 2 structure of text structure 2 structure 1 is like structure 2 m %

Бесёдные песни и их теоретико-графовые модели модели RCDL Рассмотрим один из мотивов бесёдной песни «Все мужовья до жон добры», записанной Ф. Студитским в 1841 году: Все мужовья до жон добры, Покупили жонам тафты; Ещё мой муж не доброй до меня, Он купил, мутил, Коровушку купил, Жены лишнюю работу снарядил.

Первый мотив песни «Все мужовья до жон добры» RCDL

Граф сюжета песни «Все мужовья до жон добры» RCDL Из книги «Народные песни Вологодской и Олонецкой губерний, собранные Ф. Студитским». – Санкт-Петербург, С. 67.

Граф сюжета песни «Уж ты Ванюша, Иван» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С

Граф сюжета песни «Широкая борода» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С

Граф сюжета песни «Девушка в горенке сидела» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С

Граф сюжета песни «Тропинкою шла» RCDL Из книги Лысанова В. Д. «Досюльная свадьба, песни, игры и танцы в Заонежье Олонецкой губернии». Петрозаводск, С. 72.

Пример (1) закономерности, полученной при анализе фольклорных песен RCDL Если «в графе песни число вершин m>14 и число ребер n>17», то «эта песня с большой вероятностью исполнялась в быстром темпе».

Представление правила на языке RuleML RCDL имеет темп песня быстрый с большой вероятностью больше число вершин 14 больше число ребер 17

Пример (2) закономерности, полученной при анализе фольклорных песен RCDL Если «в песне часто встречаются объекты групп «разные предметы» и «конструкции», а объекты группы «проявление качеств человека» встречаются редко», то «эта песня с большой вероятностью имеет семейную тему».

Представление правила на языке RuleML RCDL имеет тему песня семейная с большой вероятностью часто встречаются песня вершины группы «разные предметы» часто встречаются песня вершины группы «конструкции» редко встречаются песня вершины группы «проявление качеств человека»

Хранение правил и реализация вывода RCDL Необходимо обеспечить логический вывод, следовательно нужна машина логического вывода. 1.Внутренний формат хранения правил CLIPS, SWI-Prolog RuleML – для обмена с другими сообществами и системами 2.RuleML в качестве внутреннего формата хранения правил Bossam – приложения в рамках концепции Semantic Web, OO jDREW – библиотека на Java, DR-DEVICE – рассуждения в условиях неполной и противоречивой информации

RCDL