Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемbooks.vmg.pp.ua
1 9.1. Тезаурусы. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов.
2 Понятийная система предметной области Основой любой предметной области служит система понятий этой области. Определение понятия: Понятие – мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений; последние (свойства и отношения) выступают в понятии как общие и специфические признаки, соотнесенные с классами предметов и явлений (Лингвистический словарь)
3 Понятия и термины Для выражения понятия предметной области в текстах служат слова или словосочетания, называемые терминами. Совокупность терминов предметной области образуют ее терминологическую систему. Отношение конкретного термина с другими терминами терминосистемы предметной области задается посредством дефиниции
4 Определения термина? Слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. || Специальное слово или выражение, принятое для обозначения чего-л. в той или иной среде, профессии (Большой толковый словарь русского языка)
5 Термины – точные названия понятий Обычно каждому понятию области соответствует хотя бы один однозначно понимаемый термин, значением которого является это понятие. - термины, в смысле традиционной теории терминологии Свойства терминов – точных наименований понятий - термин должен относиться непосредственно к понятию, он должен выражать понятие ясно; - значение термина должно быть точным и не должно пересекаться по значению с другими терминами; - значение термина не должно зависеть от контекста. Термины, точно именующие понятие, - предмет исследования теории терминологии, терминологов
6 Текстовые термины В реальных текстах предметной области для ссылки на понятие помимо основных терминов может использоваться множество разнообразных языковых выражений, которые мы называем текстовыми терминами: - синтактико-словообразовательные варианты: получатель бюджетных средств – бюджетополучатель; - лексические варианты – безакцептное списание, бесспорное списание; - многозначные выражения, в зависимости от контекста служащие отсылкой к разным понятиям области, например, слово валюта в разных контекстах может означать национальная валюта или иностранная валюта.
7 Соотношение понятие-термин Понятие Однозначное название = термин в смысле Теории терминологии Текстовые термины
8 Информационно-поисковые тезаурусы Информационно-поисковый Тезаурус – контролируемый словарь терминов предметной области, создаваемый для улучшения качества информационного поиска в данной предметной области
9 Цели разработки ИПТ Перевод языка авторов на контролируемый язык, используемый для индексации и поиска Обеспечение последовательности в присваивании индексных терминов Обозначение отношений между терминами Облегчение информационного поиска
10 Примеры тезаурусов Тезаурус ООН – UNBIS Thesaurus Тезаурус Европейского союза – EuroVoc Тезаурус Исследовательской службы Конгресса США – LIV СССР –Правовой тезаурус –ИНИОН –Шемакин «Технический тезаурус» Стандарты ISO, ГОСТы
11 Традиционные информационно-поисковые тезаурусы для ручного индексирования: структура Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы – Отношения эквивалентности аскриптор – дескриптор Отношения между дескрипторами
12 Дескрипторы Обозначает отдельное понятие Может быть однословным или многословным Должны быть однозначными Должны быть реально использоваться в текстах Для различения значений – пометы Для уточнений значений - комментарии
13 Дескрипторы с пометами Помета - часть названия дескриптора cranes (lifting equipment) vs cranes (birds) shells (structures) – сопоставление разных тезаурусов Предпочтения словосочетаниям: –Phonograph records vs. records (phonograph) Пометы и множественное число: Wood (material) Woods (forested areas)
14 Выбор названия дескриптора Общеизвестность и частотность употребления Нейтральность: developing nations vs. underdeveloped countries Другие источники: словари, законодательство, тезаурусы –Местный бюджет – бюджет муниципального образования
15 Выбор названия дескриптора-2 Полная форма vs. Сокращение Неологизмы, сленг, жаргон Товарные знаки – vs. Аспирин, ксерокс Общеупотребительное и научное название Заимствованные слова
16 Включение дескрипторов на основе многословных выражений Расщепление термина увеличивает многозначность: plant food Смысл выражения зависит от порядка слов: информационная наука - научная информация Одно из слов-компонент находится вне сферы тезауруса или слишком общее: first aid Отношения дескриптора не следуют из его структуры: –Искусственные почки, статус беженца, traffic lights
17 Иерархические отношения Родовидовые отношение Часть –целое –Органы тела –Географические объекты –Дисциплины –Иерархические структуры (полк – батальон – рота) Отношение примера: – Гималаи - горы
18 Ассоциативные отношения Сфера деятельности – действующее лицо –Математика – математик Дисциплина – объект изучения –Неврология – нервная система Действие – агент или инструмент –Охота – охотник Действие – результат действия –Ткачество – ткань Действие – цель –Переплетные работы - книга Причина-следствие –Смерть – похороны Величина – единица измерения –Сила тока - ампер Действие - контрагент –Аллерген – антиаллергический препарат и т.п.
19 Информационно-поисковые тезаурусы: этапы разработки Первый этап: индексаторы описывают основную тему текста произвольными словами и словосочетаниями Полученные по многим текстам термины сводятся вместе Среди близких по смыслу терминов выбирается наиболее представительный Некоторые из оставшихся становятся условными синонимами, остальные удаляются Конкретные термины обычно не включаются
20 Информационно-поисковые тезаурусы: искусство разработки Дескрипторы – это термины, которые нужны для выражения основной темы документа Синонимы включаются только самые необходимые (например, начинаются с другой буквы), чтобы не затруднять работу индексатора Близкие термины должны быть сведены к одному термину, чтобы избежать субъективности индексирования Уровни иерархии, включение конкретных терминов ограничиваются
21 Информационно-поисковый тезаурус: искусство разработки - 2 В сложных случаях дескрипторы снабжаются пометами и комментариями –LIV: bombardment – bombing –Многозначные термины: одно значение в тезаурусе (capital), не помещаются в тезаурус, пометы !!! Традиционный информационно-поисковый Тезаурус – искусственный язык, построенный на базе реальных терминов
22 Информационно-поисковые тезаурусы: использование отношений Индексатор подбирает наиболее точный дескриптор для описания содержания документа Автоматическое расширение запроса. Проблемы с ассоциациями
23 Традиционные ИПТ: применение в автоматической обработке Нехватка знаний о реальном языке ПОНехватка знаний о реальном языке ПО Legislative Indexing Vocabulary:Legislative Indexing Vocabulary: –в тексте TROOPS – в тезаурусе MILITARY FORCES –в тексте CAPITAL – столица, в тезаурусе только капитал Предлагается: каждый дескриптор дополнить списками слов и терминов Предлагается: каждый дескриптор дополнить списками слов и терминов Но: многозначность или относящийся к разным дескрипторам. Но: многозначность или относящийся к разным дескрипторам. Разрешение многозначности Разрешение многозначности
24 Традиционные ИПТ: автоматическое расширение запроса Проблема с ассоциациями Предлагается: вводить веса вводить веса вводить названия отношений: объект, свойство и т.п. вводить названия отношений: объект, свойство и т.п. ВЫВОД: нужно научиться строить лингвистические ресурсы специально для автоматической обработки текстовых коллекций
25 Тезаурус EUROVOC – многоязычный тезаурус Европейского Сообщества Тезаурус на 9 языках Русская версия EUROVOC –+5 тысяч понятий, отражающих российскую специфику Многоязычный тезаурус –Дескриптор – названия на разных языках –Аскрипторы – для некоторых языков
26 Автоматическое индексирование по тезаурусу EUROVOC, основанное на правилах (Hlava, Heinebach, 1996) Пример правила: IF (near "Technology" AND with "Development") USE Community programme USE development aid ENDIF 40 тысяч правил. Тестирование: 20 наиболее частотных по тексту дескрипторов, порожденных автоматически – 42% полноты, по сравнению с ручным рубрицированием
27 Автоматическое индексирование на основе установления весов соответствия между словами и дескрипторами (Steinberger и др., 2000) 1 этап – установление соответствия между словами текста и приписанными дескрипторами на основе статистических мер (chi-square или log-likelihood) дескриптор FISHERY MANAGEMENT - следующие слова ( в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel, и т.д. 2этап собственно индексирование – суммирование логарифмов весов или как скалярное произведение векторов
28 Сочетание свободных запросов и запросов на основе информационно-поискового тезауруса Проиндексированная вручную коллекция – установление корреляций Пользователь задает запрос на естественном языке Запрос расширяется наиболее сильно коррелированными с запросом дескрипторами тезауруса (Petras 2004; Petras 2005). Например, по запросу Insolvent Companies (Неплатежеспособные компании) может быть получен список дескрипторов liquidity, indebtness, enterprise, firm., и выполнено расширение запроса Точность в эксперименте выросла на 13 %.
29 Вопросы к лекции Перечислите основные виды отношений в ИПТ. Почему традиционные ИПТ мало используются для автоматического индексирования текстов. Методы использования традиционных ИПТ в автоматических технологиях обработки текстов (запросов).
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.