Российская академия наук Карельский научный центр RCDL2012, Переславль - Залесский, 15–18 октября 2012 г. Ранжирование документов в системе поиска, основанной.

Презентация:



Advertisements
Похожие презентации
Российская академия наук Карельский научный центр Онтологически-ориентированный подход к интеграции геоинформационной системы с коллекциями электронных.
Advertisements

Российская академия наук Карельский научный центр Институт прикладных математических исследований Развитие программных сервисов и контента ЭБ КарНЦ РАН.
3.1. Назначение онтологий. Информационный поиск..
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Магистерская диссертационная работа Разработка и реализация программных средств, обеспечивающих функционирование электронной библиотеки научных информационных.
База данных – это: а) специальным образом организованная и хранящаяся на внешнем носителе совокупность взаимосвязанных данных о некоторых объектах; б)
XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.
Технология хранения, поиска и сортировки информации в базах данных
Панель управления знаниями Knowledge Dashboards Сотрудничество THOMSON REUTERS и COLLEXIS Наталья Слащева Москва МГУДекабрь 2009.
Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
© Обухова О.Л., Заикин М.Ю., Соловьев И.В. Институт проблем информатики РАН. Москва Технология создания.
Библиометрические показатели в практике формирования гидридного фонда отечественной периодики Вихрева Галина Михайловна, к.п.н., зав. отделом периодики.
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
«Создание информационной системы, обеспечивающей разработку типологии субъектов Российской Федерации для целей проведения образовательной политики с учетом.
Практическое применение данных о цитировании в российских университетах и научных организациях Декабрь 2009 Павел Касьянов, Региональный представитель.
Индекс научного цитирования. «Большинству авторов важно видеть, что их работы принимают» (Ю. Гарфилд «Индексы цитирования в науке»)
Модуль анализа и планирования содержания учебных курсов для LCMS 1С:Электронное обучение. Конструктор курсов И. О. Семенов, Г. С. Сиговцев Петрозаводский.
Транксрипт:

Российская академия наук Карельский научный центр RCDL2012, Переславль - Залесский, 15–18 октября 2012 г. Ранжирование документов в системе поиска, основанной на применении онтологии © В.Т. Вдовицын, В.А. Лебедев Институт прикладных математических исследований Карельского научного центра РАН, Петрозаводск

Российская академия наук Карельский научный центр В отличие от традиционно используемой для целей индексирования и поиска публикаций модели текста как «набор слов» («bag of words» model) мы используем в качестве модели текста публикации «набор упорядоченных терминов». В нашем случае индекс публикации формируется не на наборе слов, а на основе онтологии, моделирующей содержание определенного тематического множества публикаций. Онтология включает: рубрикатор (в нашем случае ГРНТИ), таксономию терминов определенной научной предметной области и набор логических условий предметизации (правил отнесения публикаций к определенным рубрикам ГРНТИ). Концептуальное индексирование (многозначные термины «разведены» по разным рубрикам; синонимы «учитываются» при выполнении запроса; отношения между терминами используются для расширения или уточнения запроса).

Российская академия наук Карельский научный центр СИСТЕМАТИЗАЦИЯ включает ПРЕДМЕТИЗАЦИЮ и ИНДЕКСАЦИЮ электронных публикаций. ПРЕДМЕТИЗАЦИЯ электронной публикации осуществляется на основе анализа ее названия и ключевых слов с помощью специально разработанных логических условий предметизации. В результате выполняется предварительное отнесение публикации к соответствующим рубрикам ГРНТИ. На этапе ИНДЕКСАЦИИ текст публикации, с целью выявления имеющейся в их составе терминологии, сопоставляется с фрагментом таксономии терминов, отнесенном к соответствующей рубрике ГРНТИ. При этом происходит уточнение ранее выполненной предметизации и формирование индекса публикации.

Российская академия наук Карельский научный центр термины в таксономии связаны типами отношений классификации (род-вид), агрегации (часть-целое) и синонимии. Два первых типа формируют иерархическую структуру таксономии. Синонимия терминов образует отдельную таблицу, записи которой - синонимические гнезда по отношению к доминантному термину. Фрагменты таксономий: по экологии растений (слева); по водным объектам (справа)

Российская академия наук Карельский научный центр Растительность. Фитоценология. фитогеография ν фитоценология ν ((растительность ν сообщество ν фитоценоз ν экосистема ) Λ (лес ν луг ν болото ν вырубки ν окрестность ν тайга ν водосбор ν остров ν приморский ν пригород ν динамика ν развитие)) Примеры логических условий предметизации Физические свойства вод суши. Гидрохимия. гидрохимия ν ( ν донные отложения) Λ ! ( море ν морской) Λ (химия ν физика ν оптика ν плотность ν прозрачность ν цвет ν мутность ν электропроводность ν ν ион ν ν ν ν закисление ν загрязнение ν ))

Российская академия наук Карельский научный центр ИНДЕКСАЦИЯ 1.для каждой публикации находим первую по порядку рубрику ГРНТИ, к которой она была отнесена на этапе предметизации; 2. выделяем соответствующий фрагмент таксономии для этой рубрики; 3. осуществляем подготовку текста публикации и фрагмента онтологии для индексирования ( переводим в текстовый формат, удаляем из текста слова, не несущие смысловую нагрузку, к тексту и терминам выделенного фрагмента таксономии применяется стеммер Портера ); 4. последовательно сравниваем слова текста публикации с терминами выделенного фрагмента таксономии (включая синонимы терминов) и определяем совокупность терминов, входящих в текст публикации. ИНДЕКС представляет собой ряд строк (ветвей таксономии), начиная с названия рубрики (корня) и включая все термины таксономии вплоть до найденного термина. В результате индексации массива публикаций формируется БАЗА ИНДЕКСОВ, которая используется для поиска публикаций по запросам.

Российская академия наук Карельский научный центр

1. массив электронных публикаций, в котором осуществляется поиск, предварительно систематизирован по предметному рубрикатору ( в нашем случае по ГРНТИ ) – уменьшается время поиска 2. индекс каждой публикации автоматически формируется с использованием таксономии терминов и на наш взгляд более детально характеризует ее содержание по сравнению со списком ключевых слов ( пользователь, как правило, указывает в запросе 2 – 3 ключевых слова, не всегда владеет терминологией предметной области; в нашем случае система АВТОМАТИЧЕСКИ вставляет в запрос «связанные» в рамках таксономии термины ) 3. поиск может осуществляться как по таксономии терминов, так и по ключевым словам (в последнем случае требуется «показать» пользователю те разделы таксономии, в которых встречаются указанные термины запроса). ПРЕИМУЩЕСТВА ПОДХОДА

Российская академия наук Карельский научный центр 4. наиболее эффективной схемой взаимодействия пользователя с информационной системой – указание своих информационных потребностей (с помощью таксономии терминов) и автоматическое пополнение релевантными публикациями своего «личного кабинета»; 5. в системе предусмотрена (с использованием терминов таксономии) возможность автоматического уточнения смысла многозначных терминов запроса (например, полисемия терминов устраняется в процессе построения запроса за счет «отсечения» других предметных областей); 6. фактически, пользователь сам управляет ПОЛНОТОЙ и ТОЧНОСТЬЮ результатов поиска информации.

Российская академия наук Карельский научный центр РАНЖИРОВАНИЕ Существует ряд подходов к ранжированию публикаций, например, - TF*IDF N W ij = TF ij * log – DF N – общее количество документов в коллекции; DF – количество документов содержащих термин i ; TF ij – количество появлений термина i в документе j. Okapi BM25F – учитывает зоны документа оценка меры схожести запроса и документов из коллекции с целью построения отсортированного списка результатов поиска, которая зависит только от текста запроса и документов.

Российская академия наук Карельский научный центр Первоначально, схема ранжирования документов основывалась на традиционном (статистическом) подходе. Первый ранг назначался документам, в которых полный набор терминов запроса входит в его название и аннотацию. Далее определялась частота вхождения терминов запроса в тексте документов, и вычислялось отношение этого числа к числу страниц текста. Если это отношение было не меньше половины, то документу присваивался второй ранг, а если это отношение получалось меньше 0.5 – третий ранг. После чего выполнялось упорядочивание документов, полученных системой при формировании ответа на запрос, в соответствии с назначенными рангами.

Российская академия наук Карельский научный центр Термины, расположенные на «нижних» уровнях древовидной структуры (представляющей таксономию), в большей степени определяют для него «ценность» публикации, чем термины, расположенные на «верхних» уровнях этого дерева. «Ценность» публикации для пользователя во многом определяется и тем, в какой зоне текста публикации наиболее часто появляется термины запроса (например, в научных статьях можно выделить следующие зоны: название, ключевые слова, аннотация, основной текст и т.п.). РАНЖИРОВАНИЕ ПУБЛИКАЦИЙ (основные предположения, положенные в основу алгоритма)

Российская академия наук Карельский научный центр T = (T n,Т n-1,…,T 1 ) – расширенный вектор терминов (таких векторов может быть несколько, все они упорядочиваются по длине, чем «длиннее» вектор, тем «ценнее» должны быть найденные системой на основе данных терминов публикации); (v n, v n-1, …, v 1 ) – веса компонент вектора (v n > v n-1 > … > v 1, значения весов можно вычислить, например, по следующему правилу: v i = log 2 10*i, i = 1,2, …, n); (ψ 1, ψ 2, …, ψ m ) – веса, приписанные определенным зонам публикации, куда могут входить термины запроса (например, если мы учитываем вхождение термина в название публикации, список ключевых слов, аннотацию, основной текст публикации, то в этом случае m = 4). Для научных публикаций логично предположить, что ψ 1 > ψ 2, > ψ 3 > ψ 4 (т.е. термины запроса, входящие в название публикации, являются более значимыми при ранжировании); {x ij } – число вхождений данного термина в соответствующее поле публикации, j = 1, …, m; i = 1, …, n; w – вес публикации, вычисленный с помощью функции ранжирования. n 4 w = Σ v i *Σ ψ j * x ji (1) i=1 j=1 ВЫЧИСЛЕНИЕ ВЕСА ПУБЛИКАЦИИ

Российская академия наук Карельский научный центр n 3 w = Σ v i * (Σ ψ j * x ji + ψ 4 * ω 4i ) (2) i =1 j =1 Обозначим через ω 4 i (вес термина i в 4 зоне – в тексте публикации) и определим его следующим образом: ω 4 i = 1 + log 10 x 4 i, если x 4 i > 0; и 0 – в противном случае. ВЫЧИСЛЕНИЕ ВЕСА ПУБЛИКАЦИИ (с учетом зоны публикации, куда входят термины запроса) ψ 1 = 0.4 ψ 2 = 0.3 ψ 3 = 0.2 ψ 4 = 0.1

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр Результаты ранжирования по запросу « Лесопользование. Заготовка древесины» п/п Название публикации (весовой коэффициент по поиску по таксономии) Запрос: Лесопользование. Заготовка древесины. Ранг публикации в списке Поиск по таксономии Яндекс 1 Лесные ресурсы таежной зоны России: проблемы лесопользования и лесовосстановления: Материалы Всеросс. науч. конф. с международ. участием (Петрозаводск г.) (70) 13 2Основы лесного хозяйства для лесопользователей (56) 21 3Рекомендации по устойчивому лесопользованию на осушаемых землях (44) 34 4Динамика лесопользования и состояние лесного фонда Карелии (42) 47 5Механизация восстановления леса в системе интенсивного лесопользования (37) 52 6Структура лесного фонда, динамика и перспективы лесопользования в Карелии (36) 65 7Проблемы интенсификации лесопользования в Республике Карелия (36) Социальные институты лесного хозяйства, их влияние на эффективность лесопользования (вопросы теории и практики) (33) 89 9 Пространственно-временная динамика лесного фонда и лесопользования европейской части РФ (32) Научные разработки Института леса КарНЦ РАН и их реализация в области лесопользования и лесовосстановления (30) Системный подход к ключевым проблемам развития экономики лесопромышленного комплекса Республики Карелия (26) Выбор технологии лесозаготовок на основе экологической совместимости с лесной средой (23) Освоение заболоченных лесов как фактор интенсификации лесопользования в Республике Коми (17) Противоречия интеграционных процессов в лесопромышленном комплексе (13) 1412

Российская академия наук Карельский научный центр 1. Как зависит ПОЛНОТА поиска от «полноты» онтологии? 2. Насколько адекватно отражаются информационные потребности пользователя с помощью онтологии? 3. При РАНЖИРОВАНИИ публикаций целесообразно предусмотреть пересчет РАНГА публикации в зависимости от ИНДЕКСА ЦИТИРОВАНИЯ, ИМПАКТ- ФАКТОРА издания и ВРЕМЕНИ «устаревания» публикации. ЗАКЛЮЧЕНИЕ

Российская академия наук Карельский научный центр Спасибо за внимание ! Авторы благодарны за помощь в разработке и реализации программного обеспечения ИАС «Природные ресурсы Карелии» Н.Б. Луговой, В.Г. Старковой, М.В. Гушкалову Демонстрационный прототип системы представлен в сети Интернет – Работа частично поддержана грантами РФФИ офи_м, а, а также - the projekt CoReLib saported by the Swedish Institude by grant

Российская академия наук Карельский научный центр

Поиск по рубрике «Сельское и лесное хозяйство», с ранжированием найденных публикаций

Российская академия наук Карельский научный центр АРХИТЕКТУРА ИАС «Природные ресурсы Карелии»

Российская академия наук Карельский научный центр Miriam Fernandez, Ivan Cantador, Vanesa Lуpez, David Vallet, Pablo Castells, Enrico Motta Semantically enhanced Information Retrieval: An ontology-based approach //Web Semantics: Science, Services and Agents on the World Wide Web 9 (2011) 434–452 Raquel Trillo, Laura Po, Sergio Ilarri, Sonia Bergamaschi, Eduardo Mena Using semantic techniques to access web data //Information Systems. 36 (2011). P. 117–133. Mauro Dragoni, Cйlia da Costa Pereira, Andrea G.B. Tettamanzi A conceptual representation of documents and queries for information retrieval system by using light ontologies /Expert Systems with Applications 39 (2012) 10376– Добров Б.В., Лукашевич Н.В. Онтология по естественным наукам и технологиям ОЕНТ: структура, состав и современное состояние /Российский научный электронный журнал «Электронные библиотеки», 2008–Том11–Выпуск 1.