9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.
Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)
Понятия и термины Для выражения понятия предметной области в текстах служат слова или словосочетания, называемые терминами. Совокупность терминов предметной области образуют ее терминологическую систему. Отношение конкретного термина с другими терминами терминосистемы предметной области задается посредством дефиниции
Определения термина? Слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. || Специальное слово или выражение, принятое для обозначения чего-л. в той или иной среде, профессии (Большой толковый словарь русского языка)
Термины – точные названия понятий Обычно каждому понятию области соответствует хотя бы один однозначно понимаемый термин, значением которого является это понятие. - термины, в смысле традиционной теории терминологии Свойства терминов – точных наименований понятий - термин должен относиться непосредственно к понятию, он должен выражать понятие ясно; - значение термина должно быть точным и не должно пересекаться по значению с другими терминами; - значение термина не должно зависеть от контекста. Термины, точно именующие понятие, - предмет исследования теории терминологии, терминологов
Текстовые термины В реальных текстах предметной области для ссылки на понятие помимо основных терминов может использоваться множество разнообразных языковых выражений, которые мы называем текстовыми терминами: - синтактико-словообразовательные варианты: получатель бюджетных средств – бюджетополучатель; - лексические варианты – безакцептное списание, бесспорное списание; - многозначные выражения, в зависимости от контекста служащие отсылкой к разным понятиям области, например, слово валюта в разных контекстах может означать национальная валюта или иностранная валюта.
Соотношение понятие-термин Понятие Однозначное название = термин в смысле Теории терминологии Текстовые термины
Информационно-поисковые тезаурусы Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области
Цели разработки ИПТ Перевод языка авторов на контролируемый язык, используемый для индексации и поиска Обеспечение последовательности в присваивании индексных терминов Обозначение отношений между терминами Облегчение информационного поиска
Примеры тезаурусов Тезаурус ООН – UNBIS Thesaurus Тезаурус Европейского союза – EuroVoc Тезаурус Исследовательской службы Конгресса США – LIV СССР –Правовой тезаурус –ИНИОН –Шемакин «Технический тезаурус» Стандарты ISO, ГОСТы
Традиционные информационно-поисковые тезаурусы для ручного индексирования: структура Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы – Отношения эквивалентности аскриптор – дескриптор Отношения между дескрипторами
Дескрипторы Обозначает отдельное понятие Может быть однословным или многословным Должны быть однозначными Должны быть реально использоваться в текстах Для различения значений – пометы Для уточнений значений - комментарии
Дескрипторы с пометами Помета - часть названия дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) – сопоставление разных тезаурусов Предпочтения словосочетаниям: –Phonograph records vs. records (phonograph) Пометы и множественное число: Wood (material) Woods (forested areas)
Выбор названия дескриптора Общеизвестность и частотность употребления Нейтральность: developing nations vs. underdeveloped countries Другие источники: словари, законодательство, тезаурусы –Местный бюджет – бюджет муниципального образования
Выбор названия дескриптора-2 Полная форма vs. Сокращение Неологизмы, сленг, жаргон Товарные знаки – vs. Аспирин, ксерокс Общеупотребительное и научное название Заимствованные слова
Включение дескрипторов на основе многословных выражений Расщепление термина увеличивает многозначность: plant food Смысл выражения зависит от порядка слов: информационная наука - научная информация Одно из слов-компонент находится вне сферы тезауруса или слишком общее: first aid Отношения дескриптора не следуют из его структуры: –Искусственные почки, статус беженца, traffic lights
Иерархические отношения Родовидовые отношение Часть –целое –Органы тела –Географические объекты –Дисциплины –Иерархические структуры (полк – батальон – рота) Отношение примера: – Гималаи - горы
Ассоциативные отношения Сфера деятельности – действующее лицо –Математика – математик Дисциплина – объект изучения –Неврология – нервная система Действие – агент или инструмент –Охота – охотник Действие – результат действия –Ткачество – ткань Действие – цель –Переплетные работы - книга Причина-следствие –Смерть – похороны Величина – единица измерения –Сила тока - ампер Действие - контрагент –Аллерген – антиаллергический препарат и т.п.
Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные по многим текстам термины сводятся вместе Среди близких по смыслу терминов выбирается наиболее представительный Некоторые из оставшихся становятся условными синонимами, остальные удаляются Конкретные термины обычно не включаются
Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования Уровни иерархии, включение конкретных терминов ограничиваются
Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями –LIV: bombardment – bombing –Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы !!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов
Информационно-поисковые тезаурусы: использование отношений Индексатор подбирает наиболее точный дескриптор для описания содержания документа Автоматическое расширение запроса. Проблемы с ассоциациями
Традиционные ИПТ: применение в автоматической обработке Нехватка знаний о реальном языке ПОНехватка знаний о реальном языке ПО Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексте TROOPS – в тезаурусе MILITARY FORCES –в тексте CAPITAL – столица, в тезаурусе только капитал Предлагается: каждый дескриптор дополнить списками слов и терминов Предлагается: каждый дескриптор дополнить списками слов и терминов Но: многозначность или относящийся к разным дескрипторам. Но: многозначность или относящийся к разным дескрипторам. Разрешение многозначности Разрешение многозначности
Традиционные ИПТ: автоматическое расширение запроса Проблема с ассоциациями Предлагается: вводить веса вводить веса вводить названия отношений: объект, свойство и т.п. вводить названия отношений: объект, свойство и т.п. ВЫВОД: нужно научиться строить лингвистические ресурсы специально для автоматической обработки текстовых коллекций
Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках Русская версия EUROVOC –+5 тысяч понятий, отражающих российскую специфику Многоязычный тезаурус –Дескриптор – названия на разных языках –Аскрипторы – для некоторых языков
Автоматическое индексирование по тезаурусу EUROVOC, основанное на правилах (Hlava, Heinebach, 1996) Пример правила: IF (near "Technology" AND with "Development") USE Community programme USE development aid ENDIF 40 тысяч правил. Тестирование: 20 наиболее частотных по тексту дескрипторов, порожденных автоматически – 42% полноты, по сравнению с ручным рубрицированием
Автоматическое индексирование на основе установления весов соответствия между словами и дескрипторами (Steinberger и др., 2000) 1 этап – установление соответствия между словами текста и приписанными дескрипторами на основе статистических мер (chi-square или log-likelihood) дескриптор FISHERY MANAGEMENT - следующие слова ( в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel, и т.д. 2этап собственно индексирование – суммирование логарифмов весов или как скалярное произведение векторов
Сочетание свободных запросов и запросов на основе информационно-поискового тезауруса Проиндексированная вручную коллекция – установление корреляций Пользователь задает запрос на естественном языке Запрос расширяется наиболее сильно коррелированными с запросом дескрипторами тезауруса (Petras 2004; Petras 2005). Например, по запросу Insolvent Companies (Неплатежеспособные компании) может быть получен список дескрипторов liquidity, indebtness, enterprise, firm., и выполнено расширение запроса Точность в эксперименте выросла на 13 %.
Вопросы к лекции Перечислите основные виды отношений в ИПТ. Почему традиционные ИПТ мало используются для автоматического индексирования текстов. Методы использования традиционных ИПТ в автоматических технологиях обработки текстов (запросов).