А ВТОМАТИЧЕСКОЕ НАПОЛНЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ БИБЛИОГРАИЧЕСКИМИ СВЕДЕНИЯМИ О НАУЧНЫХ ПУБЛИКАЦИЯХ О.О.Дяченко Новосибирский государственный университет.

Презентация:



Advertisements
Похожие презентации
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Advertisements

Научная электронная библиотека eLIBRARY.RU. Сайт содержит 4 блока информации : Для читателей Для организаций Для издателей Для авторов.
Университетская информационная система РОССИЯ ( УИС РОССИЯ ) Режим доступа:
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Базы данных Учитель информатики гимназии 1 г. Жуковского Московской области Ю.В.Пашковская.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
Российские ресурсы ЭБД РГБ и "Консультант студента" Совет развития Директор НТБ Колюпанова И.Ю. 6 октября 2015.
Базы данных Учебная презентация. Определение База данных (БД) – это информационная модель, позволяющая в упорядоченном виде хранить данные о группе объектов,
Зачетная работа по теме « Основы баз данных » Выполнила ученица 11-А класса Серегина Ольга.
Научное общество учащихся Направление «Математика»
MS Access Краткие сведения. Основные элементы главного окна Access Окно базы данных появляется при открытой БД. В нем - все «рычаги управления» базой.
Эволюция индексов научного цитирования: от библиографических баз данных к информационно-аналитическим системам Еременко Г.О. Научная электронная библиотека.
Технология поддержки электронных научных публикаций как «живых» документов С.И. Паринов Центральный экономико-математический институт РАН М.Р. Когаловский.
ТАБЛИЦЫ База данных может включать множество таблиц, в которых хранятся данные по различным темам. Каждая таблица может состоять из множества полей различного.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
Российский индекс научного цитирования РИНЦТренинг-семинар "Информационные ресурсы, аналитические методы и инструменты для оценки и продвижения результатов.
Текстовые редакторы MS WORD Специальность « Информационная безопасность автоматизированных систем »
Электронная Россия ( ), ЭР-2003 Лекция # 1-4 СУБД Microsoft Access 2000 РАЗРАБОТКА БАЗЫ ДАННЫХ (Таблицы и связи между ними)
«Организация научно-исследовательской работы школьников »
Транксрипт:

А ВТОМАТИЧЕСКОЕ НАПОЛНЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ БИБЛИОГРАИЧЕСКИМИ СВЕДЕНИЯМИ О НАУЧНЫХ ПУБЛИКАЦИЯХ О.О.Дяченко Новосибирский государственный университет Новосибирск, Россия Ю.А.Загорулько Институт систем информатики имени А.П. Ершова СО РАН Новосибирск, Россия RCDL –2011, Воронеж октября

П ОСТАВЛЕННЫЕ ЗАДАЧИ Разработка и реализация методов и средств автоматизации пополнения контента портала знаний, включая создание: модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами модуля добавления/обновления данных портала Интеграция разработанных средств в портал знаний по компьютерной лингвистике.

П ОДХОДЫ К СОЗДАНИЮ ФОРМАЛЬНЫХ ОПИСАНИЙ ПУБЛИКАЦИЙ ResearchIndex (SiteSeer, NEC) Модель БД цитирования (Д.Сонг) Reference managers BiblioScape 8 I, Librarian Mendeley Desktop …

Т ЕРМИНОЛОГИЯ Значимая часть текста - часть текста, о которой с высоким уровнем уверенности известно, что она содержит необходимую для описания текста информацию. Поле - компонент цитаты или некоторого значимого отрывка текста, представленный в тексте или цитате своим значением, образуя пару. Пример: «автор», «заголовок» и др. Подполе - составляющая часть сложного поля. Пример:поле «страницы» со своим значением «С » подполе «признак поля» >>> «С.», «начальная страница» >>> «251», «конечная страница» >>> «256». Индикатор (или маркер) - слово или словосочетание, которые характерны для значений или признаков некоторого поля и позволяют однозначно восстановить пару «поле – значение». Пример: « является маркером для URL в тексте.

Ф ОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ СтатьяОписание Цитаты … Описание

Ф ОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ Основные поля : Автор, Название, Название журнала, Год, Город, Название конференции, Том, Выпуск, Часть, Страницы, Издательство, ISBN, URL и другие. Описание Поле-значение Список Авторов

П ОДХОД К АВТОМАТИЗАЦИИ ОБРАБОТКИ ТЕКСТА Генерация формального описания: Определение основной информации о статье выделение значимой части текста («шапки»); определение автора, названия и др. Разбор списка цитируемой литературы. выделение списка цитируемой литературы; разбор списка на отдельные элементы (цитаты); синтаксический разбор цитаты.

С ИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (1) Синтаксическим разбором цитаты мы будем понимать определение полей, входящих в нее, и нахождение их значений. Синтаксический разбор осуществляется путем сопоставления цитаты различным шаблонам: ::= { | }+ Символьный блок – набор литер, которые обязательны для присутствия в цитате в указанном в шаблоне порядке. Пример: «//», - присутствует описаниях журнальных статей. Блок-поле – блок, соответствующий некоторому полю. Пример: Каждому шаблону присвоен свой вес, обозначающий его авторитетность.

С ИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (2) Этапы: нормализация цитаты; поиск полей цитаты среди цитат, имеющихся в библиографической базе; применение шаблонов. Нормализация цитаты - это устранение из цитаты незначимых символов, приведение ее к виду, удобному для сопоставления с шаблонами. Включает удаление повторяющихся пробелов, некоторых комбинаций символов и др.

Т ЕСТОВЫЕ ДАННЫЕ ( НА ОСНОВЕ 50 СТАТЕЙ ) Общее число Число выполненных Процент Шапка (отделение) % Шапка (разбор)504896% Хвост (отделение) 4847>95% Цитат542485>85% Мелкие ошибки54269

П РОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА

Полные и неполные написания Опыт теории лингвистических моделей «Смысл - Текст» Опыт теории лингвистических моделей Ошибки и различные написания Опыт теории лингвистических моделей «Смысл - Текст» ОПЫТ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ

М ЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить статью Есть с таким же названием Есть общая ссылка Уже есть в базе. Добавить новые данные. Добавить данные как новую статью Запомнить ID Добавить авторов Добавить связи с авторами Добавить ссылки Добавить связи цитирования

М ЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить автора Есть с с такой же фамилией и именем Есть совпадающий ? То же место работы? Тот же город? Новый Найден

П АРАМЕТРЫ МЕТОДА Строки сравниваются на основе расстояния Левенштейна минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Процент расстояния Левенштейна от минимальной длины сравниваемых строк

П АРАМЕТРЫ МЕТОДА Строки считаются совпадающими, если расстояние меньше заданного порогового значения Варьируя пороговые значения, можно менять качество сравнения объектов

К АЧЕСТВО СРАВНЕНИЯ ПРИ РАЗЛИЧНЫХ ПАРАМЕТРАХ 2000 выделенных названий, 71 уже присутствовали в БД Среди добавляемых 1378 авторов, только 105 персон уже оказались существующими в БД Порог Число отожд Число ошиб

Р ЕЗУЛЬТАТЫ РАБОТЫ Разработаны методы и средства создания формальных описаний научных статей и БД цитирования. Реализована возможность экспортирования полученных формальных описаний в формат XML. Разработаны методы и средства автоматизации пополнения контента портала знаний данными о публикациях по тематике портала знаний. Проведены тестирование разработанных методов на реальных данных (труды конф. Диалог ).

З АКЛЮЧЕНИЕ И ПЕРСПЕКТИВЫ Добавить возможность конвертации имеющихся в базе цитат в другие форматы, например, BibTex. Реализовать поддержку различных форматов документов (*.pdf, *.doc, *.html). Добавить функциональность Reference Managerов: Конвертация полученных цитат в форматы, необходимые для различных видов публикаций (например, стандарты оформления ссылок в журналах). Визуализация связей между цитатами и авторами.

Б ЛАГОДАРНОСТИ Работа выполняется при финансовой поддержке РФФИ (проект ).

С ПАСИБО ЗА ВНИМАНИЕ !

П РЕДСТАВЛЕНИ Е ФОРМАЛЬНОГО ОПИСАНИЯ

Р АЗБОР С ПОМОЩЬЮ ШАБЛОНОВ определение типа цитаты; Журнальная статья, книга, труды конференций, электронный источник или серийные издания. применение всех полных шаблонов, подходящих типу цитаты; Выбор среди подошедших наилучшего по весу, далее по количеству блоков-полей «жадное» отделение данных при помощи частичных шаблонов.

1. О ПРЕДЕЛЕНИЕ ИНФОРМАЦИИ О СТАТЬЕ Отделение «шапки»: наличие индикаторов начала глав; «Введение», «Introduction» и др. наличие маркеров ключевых слов; «Ключевые слова», «Keywords» наличие маркеров аннотации; «Статья содержит», «в работе рассматривается» и др. определение начала первой главы «по большому количеству слов» положение авторов. Разбор происходит с использованием тех же маркеров и шаблонов.

2. О ПРЕДЕЛЕНИЕ И РАЗДЕЛЕНИЕ СЦЛ Отделение списка литературы: по наличию маркеров; по «большому количеству» авторов; по нумерации; по «пустым» строкам; Разделение списка литературы: по нумерации; по специальным маркерам («Guaridano »); по переводу строки;

П РИМЕР 1: // : 2: // 3: // Загорулько Ю.А., Боровикова О.И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием Знания- Онтологии-Теории (ЗОНТ-07). Новосибирск, Т.1, С