10.1 Тезаурус для автоматического концептуального индексирования как особый вид информационно-поискового тезауруса.

Презентация:



Advertisements
Похожие презентации
10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных коллекций и автоматической обработки текстов. Тезаурус для автоматического.
Advertisements

9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.
Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска.
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Урок II Бюджет и источники его наполнения. План урока Понятие «бюджет» Порядок утверждения бюджета Структура бюджета: - доходы бюджета - расходы бюджета.
1.П РАВОВАЯ ОХРАНА ЛЕСОВ 2. Э КОЛОГИЧЕСКИЙ КОНТРОЛЬ Подготовил: Бирюков И. А. ЮФ
1 ТЕМА 14 ПРАВОВОЕ РЕГУЛИРОВАНИЕ ПОЛНОМОЧИЙ ОРГАНОВ МЕСТНОГО САМОУПРАВЛЕНИЯ В ЗЕМЕЛЬНОЙ И ГРАДОСТРОИТЕЛЬНОЙ СФЕРЕ СПК ПС ОМС.
Тезаурус РуТез: структура и приложения Лукашевич Н.В. ведущий научный сотрудник НИВЦ МГУ
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Тема 4. Бюджетное право и бюджетное устройство Российской Федерации 1. Понятие и значение государственного и местного бюджетов 2. Бюджетное право и его.
Подпрограмма «Обеспечение жильем молодых семей» государственной программы Московской области «Жилище»
Местные налоги. К местным налогам относятся: Земельный налогНалог на имущество физических лицНалог на рекламуНалог на наследование или дарениеМестные.
ЭУМК Электронные учебно-методические комплексы по экономическим специальностям ВУЗа Презентация.
МУНИЦИПАЛЬНАЯ ВЛАСТЬ РОССИЙСКОЙ ФЕДЕРАЦИИ Подготовили : Студенты 41 группы Дегтеренко Марина и Жуковская Алла.
Презентация к уроку по обществознанию (11 класс) на тему: Местное самоуправление
Муниципальная Служба Российской Федерации. НОРМАТИВНО - ПРАВОВЫЕ АКТЫ Федеральный закон от 02 марта 2007 г. 25-ФЗ «О муниципальной службе в Российской.
Пирумова Лидия Николаевна Зам. директора ЦНСХБ, канд.пед.наук Индексирование документов для Сводного каталога НИУ АПК Индексирование документов для Сводного.
2 Основание для разработки государственных программ Постановление Правительства РФ от «Об утверждении Порядка разработки, реализации и.
( утверждено постановлением Правительства области от п )
СООТВЕТСТВИЕ ПОДХОДОВ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ТРЕБОВАНИЯМ КОНЦЕПЦИИ ГОСУДАРСТВЕННОГО УЧЕТА Докладчик: Ситников Дмитрий Викторович – руководитель.
Транксрипт:

10.1 Тезаурус для автоматического концептуального индексирования как особый вид информационно-поискового тезауруса

Тезаурус для автоматического концептуального индексирования: отличительные особенности Включение значительного числа конкретных понятий (дескрипторов): не только понятие =РЫБА=, но и виды рыб; Формирование обширных списков текстовых вариантов понятия, не только ОХРАНА ПРИРОДЫ, но и ЗАЩИТА ПРИРОДЫ, ПРИРОДООХРАННАЯ СФЕРА, ПРИРОДООХРАНИТЕЛЬНЫЙ, ПРИРОДООХРАННЫЙ; Описание многозначных терминов ; Возрастание количества понятий Возрастание количества отношений между понятиями; Необходимость определения логических свойств отношений; Введение новых типов отношений, обладающих различными логическими свойствами

Функции отношений в тезаурусе для автоматического индексирования 1) Расширение запроса 2) Вывод рубрики по встретившимся в тексте терминам 3) Разрешение многозначности 4) Установление лексической связности в тексте для более качественного выявления понятий основной темы текста

Общественно-политический тезаурус Тезаурус для автоматической обработки текстов в общественно-политической области Начат в 1994 году Автоматизированное извлечение терминов из текста С 1995 года применяется в реальной автоматической обработке текстов Тестируется и дополняется в процессе выполнения конкретных работ Объем 29 тысяч понятий, 70 тысяч терминов, 105 тысяч отношений между понятиями

Количественные характеристики Общественно-политического тезауруса для автоматического индексирования и Тезауруса Исследовательской службы Конгресса США (LIV) ХарактеристикаОбщ.-полит. Тезаурус LIV Число понятий29 тысяч6.8 тысяч Число терминов70 тысяч9.8 тысяч Термины, описанные как многозначные 4.5 тысячНет Общее количество описанных отношений между понятиями 105 тысяч15 тысяч Количество отношений, полученных по логическим свойствам 700 тысячНе определено

Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений; расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти. 3. Органам исполнительной власти субъектов Российской Федерации: оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам, уволенным с военной службы, осуществляющим строительство (покупку) жилья, за счет и в пределах средств федерального бюджета, выделяемых на жилищное строительство для этой категории граждан;

Автоматическая обработка текстов на основе Общественно-политического Тезауруса Концептуальное индексирование Ранжированный информационный поиск: Тестирование (методика TREC): значительное увеличение полноты при сохранении точности поиска. Интегральная оценка: средняя точность поиска по терминам в 1.4 раза выше. Автоматическая рубрикация текстов - 10 различных рубрикаторов - количество рубрик от 35 до рубрика как сложный запрос Автоматическое аннотирование текстов (первое место в номинации «Индикативная аннотация наилучшей длины» конференции по автоматическому аннотированию SUMMAC (1998)) Тематическая аннотация

Методы, используемые при формировании состава Общественно-политического тезауруса Первоначальное наполнение тезауруса Nсуществительное A+NA+N согласованные прилагательное + существительное N+NN+Nсуществительное + существительное в род. падеже A+A+Nсогласованные прилагательное + прилагательное + существительное N+A+Nсуществительное + согласованное прилагательное + существительное в род.падеже

Правила на основе словаря сочетаемости A(-)+N(-)=G(-) важная проблема A(+)+N(-)=G(+)внешнеполитическая деятельность А(-)+N(+)=N(+) (G=N)вчерашняя продажа Словарь сочетаемости в настоящее время насчитывает около входов.

Алгоритм, основанный на учете структуры связного текста (1) Таблица 1, в которой хранятся сами элементы, эффективная частота Freq1. В начале Таблица 1 заполняется леммами и многословными терминами, выбираемыми из терминов тезауруса или иными элементами, собираемыми другими алгоритмами (например, Фамилия+Имя+Отчество) Таблица 2 - таблица непосредственных соседей элементов из Таблицы 1. Допустимыми являются пары вида N+N, A+N (здесь свойство «N» - «существительного» переносится и на словосочетание). Для каждой пары поддерживается эффективная частота Freq2 Таблица 3 - таблица лексических связей, которые устанавливаются между парами элементов на расстоянии, не превышающем заданного предела k, измеряемого в элементах (в настоящее время k=4)

Алгоритм, основанный на учете структуры связного текста (2) Цикл по парам элементов Таблицы 2, начиная с пары, Argmax(Freq2). Цикл останавливается на значении Freq2 = 10, и на значении Freq2 < 2, иначе. Для каждой пары элементов из Таблицы 2 проверяется условие: Freq2 (Item i, Item j ) > 0.5 * Freq3( Item i, Item j ), Если условие не выполняется, то выбирается следующая пара, если выполняется, то производится сборка нового словосочетания. При сборке производится склейка элементов Item i и Item j, образуется новый элемент Item 0, который записывается в таблицу 1

Примеры для нормативных актов за январь-июнь 2003 г. «закон об обязательном страховании гражданской ответственности владельцев транспортных средств», «задолженность по обязательным платежам в федеральный бюджет», уверенно собираются полные наименования всех органов власти РФ и т.п. в предметной области «Авиация»: «положение дежурство на аэродроме», «уничтожение самолета противника», «дежурство в воздухе», «ввод в бой», «выход в боевое соприкосновение» и др. в предметной области «Выборы»: «член избирательной комиссии с правом совещательного голоса», «исполнительный орган местного самоуправления», «выборы главы местного самоуправления».

Отношения в информационно-поисковых ресурсах: альтернативы Традиционный информационно- поисковый тезаурус: выше-ниже, ассоциация Ассоциации – невозможно использовать в автоматической обработке Лингвистические исследования: наборы семантических ролей Наборы разные для разных областей часто сложно поставить точное отношение, как использовать различные отношения

Современные подходы к описанию отношений при разработке онтологий отношения – произвольный предикат, свойства задаются аксиомами P(x1,…xn) Для того, чтобы такая система отношений работала, нужно стабильно находить отношения в разнообразных текстах Но это проблема! Аргументы могут оказаться далеко друг от друга в тексте, между ними может быть другое отношение или совсем не быть отношений.

Наш подход к описанию отношений Отношения должна иметь максимально четкие правила установления Отношения должны позволять осуществлять вывод по тезаурусу в автоматическом режиме Ресурс должен начать работать в разумные сроки для неограниченных текстов в сложных предметных областях

Надежные отношения Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте. –При расширении запроса – это невозможно для текста –Возможности систем автоматической обработки текста для анализа релевантности контекста ограниченны Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда: –для всех или большинства примеров понятия –в течение всего (или почти всего) времени существования примера Нужно описывать надежные отношения

Родовидовое отношение ВЫШЕ- НИЖЕ Проверочное правило: Х – это вид У Береза – это вид деревьев Дерево – это вид растений Транзитивное отношение: береза – это растение => можно использовать для выводов Свойства наследования: свойства вышестоящего наследуются на нижестоящее Надежное отношение: –Отношение выполняется для всех примеров понятия –Отношение выполняется все время существования примера

Между понятиями могут быть отношения, частично нарушающие свойства родовидового отношения Проверочное правило выполняется, но свойства отношения изменились. Проверочная фраза необходимое, но не достаточное условие

Отношения, похожие на родовидовое отношение - Не все свойства вышестоящего наследуются или значения свойств заменяются: мать – приемная мать Мебель – пианино Аванс - задаток Нужно отметить, что с отношением есть проблемы: пометка А – ВЫШЕ_А аспект, точка зрения

Семантическое смещение Река – водный объект – водные ресурсы – вода – вещество??? Каждая пара соседей может быть подставлена в проверочную фразу Река, водный объект имеют форму, границы, а вода, вещество – не имеют формы. Потеря семантического типа Родовидовое отношение не устанавливается

Отношения онтологической зависимости. Формальная онтология. N.Guarino может ли сущность (С1) существовать сама по себе, или подразумевает существование чего-либо еще (С2): подразумевает ли существование сущности существование чего-либо какой-либо конкретной сущности (строгая зависимость - rigid dependence), например, кипение (С1) - жидкост ь (С2); предполагается ли существование примеров некоторого класса (generic dependence – зависимость по классу) некоторых сущностей, гараж (С1) – автомобиль (С2); предполагает ли существование С1 в некоторый момент времени t 1, существования C2 в некоторый другой момент времени t 2 (историческая зависимость): солома (С1) – молотьба С2.

Отношения онтологической зависимости и семантические имена ГАРАЖ зависит_от АВТОМОБИЛЬ (назначение?) РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?) ГИДРО- ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?) ЛЕС зависит_от ДЕРЕВО (часть?) ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?) КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?) Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны

Лес: части БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ) ГРУППА ЛЕСА ЗАРОСЛЬ (ЗАРОСЛЕВЫЙ) ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА) ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА) ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ) ОПУШКА (ОПУШЕЧНЫЙ) ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ) ПОДРОСТ (МОЛОДНЯК) ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА) СУХОСТОЙ (СУХОСТОЙНЫЙ)

Лес: зависимые понятия ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) ЛЕСОВЛАДЕНИЕЛЕСОВЛАДЕНИЕ ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)

Отношения онтологической зависимости и реальные проекты Отношения строгой и родовой онтологической зависимости –Общественно- политический тезаурус, по н.в – 28 тысяч понятий –Тезаурус русского языка РуТез – 1997-по н.в. – 45 тысяч понятий – 177 тысяч отношений –АвиаОнтология – – 1.5 тысячи понятий –Тезаурус по компьютерной безопасности – тысячи понятий Онтология по естественным наукам (2004-…)

Оценка эффективности поиска по тезаурусу по сравнению с контекстным поиском по векторной модели Запросы: рубрики из каждого из 20 подразделов Классификатора правовых актов. Пример рубрики «Использование атомной энергии». Массив документов: Нормативные акты Поиск релевантных документов для запроса: Сокращение интервала – просмотр документов Методика оценки: TREC вычисление средней точности в трех точках полноты: 0.2, 0.5, 0.8.

Сравнение поисковых механизмов

АЛОТ Автоматизированная Лингвистическая Обработка Текста

Автоматическая обработка текстов на основе Тезауруса Концептуальное индексирование Ранжированный информационный поиск: Тестирование (методика TREC): значительное увеличение полноты при сохранении точности поиска. Интегральная оценка: средняя точность поиска по терминам в 1.2 раза выше. Автоматическая рубрикация текстов - более 10 различных рубрикаторов - количество рубрик от 35 до рубрика как сложный запрос Автоматическое аннотирование (summarization) текстов (первое место в номинации «Индикативная аннотация наилучшей длины» конференции по автоматическому аннотированию SUMMAC (1998)) Тематическая аннотация

Вопросы к лекции В чем состоят отличительные особенности Тезауруса для автоматического концептуального индексирования? 1 Каковы возможные способы установление отношений в тезаурусах? Что такое отношения онтологической зависимости