Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемrcdl.ru
1 А ВТОМАТИЧЕСКОЕ НАПОЛНЕНИЕ ИНФОРМАЦИОННЫХ СИСТЕМ БИБЛИОГРАИЧЕСКИМИ СВЕДЕНИЯМИ О НАУЧНЫХ ПУБЛИКАЦИЯХ О.О.Дяченко Новосибирский государственный университет Новосибирск, Россия Ю.А.Загорулько Институт систем информатики имени А.П. Ершова СО РАН Новосибирск, Россия RCDL –2011, Воронеж октября
2 П ОСТАВЛЕННЫЕ ЗАДАЧИ Разработка и реализация методов и средств автоматизации пополнения контента портала знаний, включая создание: модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами модуля добавления/обновления данных портала Интеграция разработанных средств в портал знаний по компьютерной лингвистике.
3 П ОДХОДЫ К СОЗДАНИЮ ФОРМАЛЬНЫХ ОПИСАНИЙ ПУБЛИКАЦИЙ ResearchIndex (SiteSeer, NEC) Модель БД цитирования (Д.Сонг) Reference managers BiblioScape 8 I, Librarian Mendeley Desktop …
4 Т ЕРМИНОЛОГИЯ Значимая часть текста - часть текста, о которой с высоким уровнем уверенности известно, что она содержит необходимую для описания текста информацию. Поле - компонент цитаты или некоторого значимого отрывка текста, представленный в тексте или цитате своим значением, образуя пару. Пример: «автор», «заголовок» и др. Подполе - составляющая часть сложного поля. Пример:поле «страницы» со своим значением «С » подполе «признак поля» >>> «С.», «начальная страница» >>> «251», «конечная страница» >>> «256». Индикатор (или маркер) - слово или словосочетание, которые характерны для значений или признаков некоторого поля и позволяют однозначно восстановить пару «поле – значение». Пример: « является маркером для URL в тексте.
5 Ф ОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ СтатьяОписание Цитаты … Описание
6 Ф ОРМАЛЬНОЕ ОПИСАНИЕ СТАТЬИ Основные поля : Автор, Название, Название журнала, Год, Город, Название конференции, Том, Выпуск, Часть, Страницы, Издательство, ISBN, URL и другие. Описание Поле-значение Список Авторов
7 П ОДХОД К АВТОМАТИЗАЦИИ ОБРАБОТКИ ТЕКСТА Генерация формального описания: Определение основной информации о статье выделение значимой части текста («шапки»); определение автора, названия и др. Разбор списка цитируемой литературы. выделение списка цитируемой литературы; разбор списка на отдельные элементы (цитаты); синтаксический разбор цитаты.
8 С ИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (1) Синтаксическим разбором цитаты мы будем понимать определение полей, входящих в нее, и нахождение их значений. Синтаксический разбор осуществляется путем сопоставления цитаты различным шаблонам: ::= { | }+ Символьный блок – набор литер, которые обязательны для присутствия в цитате в указанном в шаблоне порядке. Пример: «//», - присутствует описаниях журнальных статей. Блок-поле – блок, соответствующий некоторому полю. Пример: Каждому шаблону присвоен свой вес, обозначающий его авторитетность.
9 С ИНТАКСИЧЕСКИЙ РАЗБОР ЦИТАТ (2) Этапы: нормализация цитаты; поиск полей цитаты среди цитат, имеющихся в библиографической базе; применение шаблонов. Нормализация цитаты - это устранение из цитаты незначимых символов, приведение ее к виду, удобному для сопоставления с шаблонами. Включает удаление повторяющихся пробелов, некоторых комбинаций символов и др.
10 Т ЕСТОВЫЕ ДАННЫЕ ( НА ОСНОВЕ 50 СТАТЕЙ ) Общее число Число выполненных Процент Шапка (отделение) % Шапка (разбор)504896% Хвост (отделение) 4847>95% Цитат542485>85% Мелкие ошибки54269
11 П РОБЛЕМА ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА
12 Полные и неполные написания Опыт теории лингвистических моделей «Смысл - Текст» Опыт теории лингвистических моделей Ошибки и различные написания Опыт теории лингвистических моделей «Смысл - Текст» ОПЫТ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ
13 М ЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить статью Есть с таким же названием Есть общая ссылка Уже есть в базе. Добавить новые данные. Добавить данные как новую статью Запомнить ID Добавить авторов Добавить связи с авторами Добавить ссылки Добавить связи цитирования
14 М ЕТОДЫ ПОПОЛНЕНИЯ КОНТЕНТА ПОРТАЛА Добавить автора Есть с с такой же фамилией и именем Есть совпадающий ? То же место работы? Тот же город? Новый Найден
15 П АРАМЕТРЫ МЕТОДА Строки сравниваются на основе расстояния Левенштейна минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Процент расстояния Левенштейна от минимальной длины сравниваемых строк
16 П АРАМЕТРЫ МЕТОДА Строки считаются совпадающими, если расстояние меньше заданного порогового значения Варьируя пороговые значения, можно менять качество сравнения объектов
17 К АЧЕСТВО СРАВНЕНИЯ ПРИ РАЗЛИЧНЫХ ПАРАМЕТРАХ 2000 выделенных названий, 71 уже присутствовали в БД Среди добавляемых 1378 авторов, только 105 персон уже оказались существующими в БД Порог Число отожд Число ошиб
18 Р ЕЗУЛЬТАТЫ РАБОТЫ Разработаны методы и средства создания формальных описаний научных статей и БД цитирования. Реализована возможность экспортирования полученных формальных описаний в формат XML. Разработаны методы и средства автоматизации пополнения контента портала знаний данными о публикациях по тематике портала знаний. Проведены тестирование разработанных методов на реальных данных (труды конф. Диалог ).
19 З АКЛЮЧЕНИЕ И ПЕРСПЕКТИВЫ Добавить возможность конвертации имеющихся в базе цитат в другие форматы, например, BibTex. Реализовать поддержку различных форматов документов (*.pdf, *.doc, *.html). Добавить функциональность Reference Managerов: Конвертация полученных цитат в форматы, необходимые для различных видов публикаций (например, стандарты оформления ссылок в журналах). Визуализация связей между цитатами и авторами.
20 Б ЛАГОДАРНОСТИ Работа выполняется при финансовой поддержке РФФИ (проект ).
21 С ПАСИБО ЗА ВНИМАНИЕ !
22 П РЕДСТАВЛЕНИ Е ФОРМАЛЬНОГО ОПИСАНИЯ
23 Р АЗБОР С ПОМОЩЬЮ ШАБЛОНОВ определение типа цитаты; Журнальная статья, книга, труды конференций, электронный источник или серийные издания. применение всех полных шаблонов, подходящих типу цитаты; Выбор среди подошедших наилучшего по весу, далее по количеству блоков-полей «жадное» отделение данных при помощи частичных шаблонов.
24 1. О ПРЕДЕЛЕНИЕ ИНФОРМАЦИИ О СТАТЬЕ Отделение «шапки»: наличие индикаторов начала глав; «Введение», «Introduction» и др. наличие маркеров ключевых слов; «Ключевые слова», «Keywords» наличие маркеров аннотации; «Статья содержит», «в работе рассматривается» и др. определение начала первой главы «по большому количеству слов» положение авторов. Разбор происходит с использованием тех же маркеров и шаблонов.
25 2. О ПРЕДЕЛЕНИЕ И РАЗДЕЛЕНИЕ СЦЛ Отделение списка литературы: по наличию маркеров; по «большому количеству» авторов; по нумерации; по «пустым» строкам; Разделение списка литературы: по нумерации; по специальным маркерам («Guaridano »); по переводу строки;
26 П РИМЕР 1: // : 2: // 3: // Загорулько Ю.А., Боровикова О.И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием Знания- Онтологии-Теории (ЗОНТ-07). Новосибирск, Т.1, С
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.