9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.

Презентация:



Advertisements
Похожие презентации
9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.
Advertisements

10.1 Тезаурус для автоматического концептуального индексирования как особый вид информационно-поискового тезауруса.
Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
Тема 4. Бюджетное право и бюджетное устройство Российской Федерации 1. Понятие и значение государственного и местного бюджетов 2. Бюджетное право и его.
МУНИЦИПАЛЬНАЯ ВЛАСТЬ РОССИЙСКОЙ ФЕДЕРАЦИИ Подготовили : Студенты 41 группы Дегтеренко Марина и Жуковская Алла.
Стандартизация как способ обеспечения качества. 2 Стандартизация и получатель услуг Стандартизация – это деятельность, направленная на разработку и установление.
Особенности проектирования рабочих программ учителя Масюкова Н.Г., руководитель кафедры гуманитарных дисциплин СКИРО ПК и ПРО.
Тема: Бюджетирование ориентированное на результат (БОР) 1.Нововведения в бюджетный кодекс РФ. Введение новых статей в БК: Статья 158. Бюджетные полномочия.
Пирумова Лидия Николаевна Зам. директора ЦНСХБ, канд.пед.наук Индексирование документов для Сводного каталога НИУ АПК Индексирование документов для Сводного.
ПРОЕКТИРОВАНИЕ НПА ПО ВОПРОСУ МЕСТНОГО ЗНАЧЕНИЯ. НПА ПО РЕШЕНИЮ ВОПРОСА МЕСТНОГО ЗНАЧЕНИЯ НПА по ВМЗ – это принятый представительным органом местного.
Муниципальная Служба Российской Федерации. НОРМАТИВНО - ПРАВОВЫЕ АКТЫ Федеральный закон от 02 марта 2007 г. 25-ФЗ «О муниципальной службе в Российской.
Государственная гражданская служба как система: содержание, характеристики элементов и подсистем ПОДГОТОВИЛА СТУДЕНТКА 3 КУРСА ГРУППЫ 3104 КУГОТОВА ФАТИМАТ.
Проект ФЗ «О стандартах государственных услуг» ноябрь 2005 года.
10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных коллекций и автоматической обработки текстов. Тезаурус для автоматического.
Стандарт организации. Рекомендации по разработке, построению и оформлению документа Семинар «Практическая значимость внедрения СМК в образовательной организации»
Организация управления муниципальным образованием 1. Основные модели организации МСУ. Понятие «орган МСУ». 2. Варианты организации МСУ. Понятие «структура.
Теория систем и системный анализ Тема5 «Оценка сложных систем. Основные типы шкал измерения »
СООТВЕТСТВИЕ ПОДХОДОВ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ТРЕБОВАНИЯМ КОНЦЕПЦИИ ГОСУДАРСТВЕННОГО УЧЕТА Докладчик: Ситников Дмитрий Викторович – руководитель.
ИСТОЧНИКИ (ФОРМЫ) ПРАВА. Право реально существует и функционирует в определенных формах. Внешнее выражение права в юридической литературе называют по-разному:
1 TTÜ virumaa KOLLED ž ÕIGUSÕPETUS. 2 Государственное право Функции государства - это основные направления деятельности государства. Функции государства.
Транксрипт:

9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.

Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)

Понятия и термины Для выражения понятия предметной области в текстах служат слова или словосочетания, называемые терминами. Совокупность терминов предметной области образуют ее терминологическую систему. Отношение конкретного термина с другими терминами терминосистемы предметной области задается посредством дефиниции

Определения термина? Слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. || Специальное слово или выражение, принятое для обозначения чего-л. в той или иной среде, профессии (Большой толковый словарь русского языка)

Термины – точные названия понятий Обычно каждому понятию области соответствует хотя бы один однозначно понимаемый термин, значением которого является это понятие. - термины, в смысле традиционной теории терминологии Свойства терминов – точных наименований понятий - термин должен относиться непосредственно к понятию, он должен выражать понятие ясно; - значение термина должно быть точным и не должно пересекаться по значению с другими терминами; - значение термина не должно зависеть от контекста. Термины, точно именующие понятие, - предмет исследования теории терминологии, терминологов

Текстовые термины В реальных текстах предметной области для ссылки на понятие помимо основных терминов может использоваться множество разнообразных языковых выражений, которые мы называем текстовыми терминами: - синтактико-словообразовательные варианты: получатель бюджетных средств – бюджетополучатель; - лексические варианты – безакцептное списание, бесспорное списание; - многозначные выражения, в зависимости от контекста служащие отсылкой к разным понятиям области, например, слово валюта в разных контекстах может означать национальная валюта или иностранная валюта.

Соотношение понятие-термин Понятие Однозначное название = термин в смысле Теории терминологии Текстовые термины

Информационно-поисковые тезаурусы Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области

Цели разработки ИПТ Перевод языка авторов на контролируемый язык, используемый для индексации и поиска Обеспечение последовательности в присваивании индексных терминов Обозначение отношений между терминами Облегчение информационного поиска

Примеры тезаурусов Тезаурус ООН – UNBIS Thesaurus Тезаурус Европейского союза – EuroVoc Тезаурус Исследовательской службы Конгресса США – LIV СССР –Правовой тезаурус –ИНИОН –Шемакин «Технический тезаурус» Стандарты ISO, ГОСТы

Традиционные информационно-поисковые тезаурусы для ручного индексирования: структура Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы – Отношения эквивалентности аскриптор – дескриптор Отношения между дескрипторами

Дескрипторы Обозначает отдельное понятие Может быть однословным или многословным Должны быть однозначными Должны быть реально использоваться в текстах Для различения значений – пометы Для уточнений значений - комментарии

Дескрипторы с пометами Помета - часть названия дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) – сопоставление разных тезаурусов Предпочтения словосочетаниям: –Phonograph records vs. records (phonograph) Пометы и множественное число: Wood (material) Woods (forested areas)

Выбор названия дескриптора Общеизвестность и частотность употребления Нейтральность: developing nations vs. underdeveloped countries Другие источники: словари, законодательство, тезаурусы –Местный бюджет – бюджет муниципального образования

Выбор названия дескриптора-2 Полная форма vs. Сокращение Неологизмы, сленг, жаргон Товарные знаки – vs. Аспирин, ксерокс Общеупотребительное и научное название Заимствованные слова

Включение дескрипторов на основе многословных выражений Расщепление термина увеличивает многозначность: plant food Смысл выражения зависит от порядка слов: информационная наука - научная информация Одно из слов-компонент находится вне сферы тезауруса или слишком общее: first aid Отношения дескриптора не следуют из его структуры: –Искусственные почки, статус беженца, traffic lights

Иерархические отношения Родовидовые отношение Часть –целое –Органы тела –Географические объекты –Дисциплины –Иерархические структуры (полк – батальон – рота) Отношение примера: – Гималаи - горы

Ассоциативные отношения Сфера деятельности – действующее лицо –Математика – математик Дисциплина – объект изучения –Неврология – нервная система Действие – агент или инструмент –Охота – охотник Действие – результат действия –Ткачество – ткань Действие – цель –Переплетные работы - книга Причина-следствие –Смерть – похороны Величина – единица измерения –Сила тока - ампер Действие - контрагент –Аллерген – антиаллергический препарат и т.п.

Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные по многим текстам термины сводятся вместе Среди близких по смыслу терминов выбирается наиболее представительный Некоторые из оставшихся становятся условными синонимами, остальные удаляются Конкретные термины обычно не включаются

Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования Уровни иерархии, включение конкретных терминов ограничиваются

Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями –LIV: bombardment – bombing –Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы !!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов

Информационно-поисковые тезаурусы: использование отношений Индексатор подбирает наиболее точный дескриптор для описания содержания документа Автоматическое расширение запроса. Проблемы с ассоциациями

Традиционные ИПТ: применение в автоматической обработке Нехватка знаний о реальном языке ПОНехватка знаний о реальном языке ПО Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексте TROOPS – в тезаурусе MILITARY FORCES –в тексте CAPITAL – столица, в тезаурусе только капитал Предлагается: каждый дескриптор дополнить списками слов и терминов Предлагается: каждый дескриптор дополнить списками слов и терминов Но: многозначность или относящийся к разным дескрипторам. Но: многозначность или относящийся к разным дескрипторам. Разрешение многозначности Разрешение многозначности

Традиционные ИПТ: автоматическое расширение запроса Проблема с ассоциациями Предлагается: вводить веса вводить веса вводить названия отношений: объект, свойство и т.п. вводить названия отношений: объект, свойство и т.п. ВЫВОД: нужно научиться строить лингвистические ресурсы специально для автоматической обработки текстовых коллекций

Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках Русская версия EUROVOC –+5 тысяч понятий, отражающих российскую специфику Многоязычный тезаурус –Дескриптор – названия на разных языках –Аскрипторы – для некоторых языков

Тезаурус для автоматического концептуального индексирования: отличительные особенности Включение значительного числа конкретных понятий (дескрипторов): не только понятие =РЫБА=, но и виды рыб; Формирование обширных списков текстовых вариантов понятия, не только ОХРАНА ПРИРОДЫ, но и ЗАЩИТА ПРИРОДЫ, ПРИРОДООХРАННАЯ СФЕРА, ПРИРОДООХРАНИТЕЛЬНЫЙ, ПРИРОДООХРАННЫЙ; Описание многозначных терминов ; Возрастание количества понятий Возрастание количества отношений между понятиями; Необходимость определения логических свойств отношений; Введение новых типов отношений, обладающих различными логическими свойствами

Функции отношений в тезаурусе для автоматического индексирования 1) Расширение запроса 2) Вывод рубрики по встретившимся в тексте терминам 3) Разрешение многозначности 4) Установление лексической связности в тексте для более качественного выявления понятий основной темы текста

Общественно-политический тезаурус Тезаурус для автоматической обработки текстов в общественно-политической области Начат в 1994 году Автоматизированное извлечение терминов из текста С 1995 года применяется в реальной автоматической обработке текстов Тестируется и дополняется в процессе выполнения конкретных работ Объем 29 тысяч понятий, 70 тысяч терминов, 105 тысяч отношений между понятиями

Количественные характеристики Общественно-политического тезауруса для автоматического индексирования и Тезауруса Исследовательской службы Конгресса США (LIV) ХарактеристикаОбщ.-полит. Тезаурус LIV Число понятий29 тысяч6.8 тысяч Число терминов70 тысяч9.8 тысяч Термины, описанные как многозначные 4.5 тысячНет Общее количество описанных отношений между понятиями 105 тысяч15 тысяч Количество отношений, полученных по логическим свойствам 700 тысячНе определено

Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем) жилых помещений; расходы, связанные с оказанием военнослужащим безвозмездной финансовой помощи и выплатой денежной компенсации за наем (поднаем) жилых помещений, производить за счет и в пределах средств, выделяемых из федерального бюджета по сметам этих федеральных органов исполнительной власти. 3. Органам исполнительной власти субъектов Российской Федерации: оказывать безвозмездную финансовую помощь в избранном постоянном месте жительства гражданам, уволенным с военной службы, осуществляющим строительство (покупку) жилья, за счет и в пределах средств федерального бюджета, выделяемых на жилищное строительство для этой категории граждан;

Автоматическая обработка текстов на основе Общественно-политического Тезауруса Концептуальное индексирование Ранжированный информационный поиск: Тестирование (методика TREC): значительное увеличение полноты при сохранении точности поиска. Интегральная оценка: средняя точность поиска по терминам в 1.4 раза выше. Автоматическая рубрикация текстов - 10 различных рубрикаторов - количество рубрик от 35 до рубрика как сложный запрос Автоматическое аннотирование текстов (первое место в номинации «Индикативная аннотация наилучшей длины» конференции по автоматическому аннотированию SUMMAC (1998)) Тематическая аннотация

Методы, используемые при формировании состава Общественно-политического тезауруса Первоначальное наполнение тезауруса Nсуществительное A+NA+N согласованные прилагательное + существительное N+NN+Nсуществительное + существительное в род. падеже A+A+Nсогласованные прилагательное + прилагательное + существительное N+A+Nсуществительное + согласованное прилагательное + существительное в род.падеже

Правила на основе словаря сочетаемости A(-)+N(-)=G(-) важная проблема A(+)+N(-)=G(+)внешнеполитическая деятельность А(-)+N(+)=N(+) (G=N)вчерашняя продажа Словарь сочетаемости в настоящее время насчитывает около входов.

Алгоритм, основанный на учете структуры связного текста (1) Таблица 1, в которой хранятся сами элементы, эффективная частота Freq1. В начале Таблица 1 заполняется леммами и многословными терминами, выбираемыми из терминов тезауруса или иными элементами, собираемыми другими алгоритмами (например, Фамилия+Имя+Отчество) Таблица 2 - таблица непосредственных соседей элементов из Таблицы 1. Допустимыми являются пары вида N+N, A+N (здесь свойство «N» - «существительного» переносится и на словосочетание). Для каждой пары поддерживается эффективная частота Freq2 Таблица 3 - таблица лексических связей, которые устанавливаются между парами элементов на расстоянии, не превышающем заданного предела k, измеряемого в элементах (в настоящее время k=4)

Алгоритм, основанный на учете структуры связного текста (2) Цикл по парам элементов Таблицы 2, начиная с пары, Argmax(Freq2). Цикл останавливается на значении Freq2 = 10, и на значении Freq2 < 2, иначе. Для каждой пары элементов из Таблицы 2 проверяется условие: Freq2 (Item i, Item j ) > 0.5 * Freq3( Item i, Item j ), Если условие не выполняется, то выбирается следующая пара, если выполняется, то производится сборка нового словосочетания. При сборке производится склейка элементов Item i и Item j, образуется новый элемент Item 0, который записывается в таблицу 1

Примеры для нормативных актов за январь-июнь 2003 г. «закон об обязательном страховании гражданской ответственности владельцев транспортных средств», «задолженность по обязательным платежам в федеральный бюджет», уверенно собираются полные наименования всех органов власти РФ и т.п. в предметной области «Авиация»: «положение дежурство на аэродроме», «уничтожение самолета противника», «дежурство в воздухе», «ввод в бой», «выход в боевое соприкосновение» и др. в предметной области «Выборы»: «член избирательной комиссии с правом совещательного голоса», «исполнительный орган местного самоуправления», «выборы главы местного самоуправления».

Вопросы к лекции В чем состоят отличительные особенности Тезауруса для автоматического концептуального индексирования? Перечислите основные виды отношений в ИПТ. Опишите идею алгоритма основанного на учете структуры связного текста.