МЕТОДЫ ОРГАНИЗАЦИИ ЛЕКСИЧЕСКОЙ ИНФОРМАЦИИ Тезаурусы в задачах информационного поиска.

Презентация:



Advertisements
Похожие презентации
Информационно-поисковые языки Лекция 3. Вопросы: 1.Информационно-поисковые языки (ИПЯ): понятие и структура. 2.ИПЯ: основные характеристики. 3.Типы и.
Advertisements

Найдите основание для классификации Дом, Родина, хлеб, дорога, жизнь, дочь, мужество, школа, радость.
Людмила Петрушевская Пуськи бятые. Сяпала Калуша с Калушатами по напушке.
В платье белом Девушка стоит. И народ её благодарит За её печальную красу, За её зеленую косу.
Морфемы и их роль Презентация к уроку повторения в 7 классе Григорьевой Наталии Владимировны.
Урок русского языка в 7 классе: Лингвистическая сказка Л. Петрушевской ДЕНИСЕНКО А.Д., УЧИТЕЛЬ РУССКОГО ЯЗЫКА И ЛИТЕРАТУРЫ ГУ «НОВОЧЕРКАССКАЯ СШ»
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Подготовка к контрольной работе по русскому языку Тренировочные упражнения. 4 класс. Учебник В. В. Репкина.
Сочинение на лингвистическую тему Задание С2 экзаменационной работы в формате ГИА. Блок 1. Связь лексики и грамматики языка. Автор: Хохлова М.С., учитель.
Сяпала калуша с калушатами по напушке и увазила бутявку, и волит: - Калушата! Калушаточки! Бутявка! Калушата присяпали, бутявку стрямкали. И подудонились.
СУБД Базы данных. Информационная система Совокупность базы данных и всего комплекса аппаратно- программных средств для ее хранения, изменения, и поиска.
Обучение лексике. Что означает владеть лексикой? Особенности функционирования любой языковой единицы проявляются в 2х планах: семасиологический аспект.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Моделирование как метод познания Моделирование это метод познания, состоящий в создании и исследовании моделей.
Технология хранения, поиска и сортировки информации в базах данных
Эти многоликие слова… Эти многоликие слова… Обобщающий урок по теме «Лексика»
Теория экономических информационных систем Семантические модели данных.
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
Ученический проект «Путешествие в школьный парк» Подготовили ученики 3 класса :Айдинян Л, БылкинС, Костючик Н, Мартынова А СердюковаА,Латушкин И Учитель.
База данных (БД) – Совокупность определённым образом организованной информации на определённую тему (в рамках определённой предметной деятельности); Организованная.
Транксрипт:

МЕТОДЫ ОРГАНИЗАЦИИ ЛЕКСИЧЕСКОЙ ИНФОРМАЦИИ Тезаурусы в задачах информационного поиска

ИНФОРМАЦИОННЫЙ ПОИСК процесс отыскания в некотором множестве текстов (документов) всех таких, которые посвящены указанной в запросе теме (предмету) или содержат нужные потребителю факты, сведения. И. п. осуществляется посредством информационно-поисковой системы и выполняется вручную либо с использованием средств механизации или автоматизации. Непременным участником И. п. является человек. При И. п. отыскиваются и могут быть найдены такие и только такие факты или сведения, которые были введены в ИПС. Перед вводом в ИПС текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков. Эта запись называется поисковым образом текста. Так же поступают и когда в ИПС вводят определённым образом записанные факты, сведения. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче. Техническая эффективность И. п. характеризуется двумя относительными показателями коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной ИПС). Лит.: Михайлов А. И., Черный А. И., Гиляревский Р. С., Основы информатики, 2 изд., М., 1968, с ; Bourne Ch. P., Methods of information handling, N. Y., 1963; Vickery B. C., On retrieval system theory, 2 ed., L., 1965.

ЛЕКСИКА. СИСТЕМНОСТЬ В ЛЕКСИКЕ Лексика (от др.-греч. λεξικός «относящийся к слову», от λέξις «слово», «оборот речи») совокупность всех слов того или иного языка, словарный состав языка. Лексика является центральной частью языка, именующей, структурирующей и передающей знания об объектах реальной действительности. Слово = Означающее (звук./граф. образ) Означаемое (содержание слова) Слово – Понятие – Реалия Слово – лексическое значение (в основе понятие)

ЛЕКСИЧЕСКАЯ ИНФОРМАЦИЯ БЕРЁЗА, -ы, ж. Лиственное дерево с белой (реже тёмной) корой и с сердцевидными листьями. Белая б. Чёрная б. Карликовая б., уменьш. берёзка, -и, ж., ласк. берёзонька, -и, ж., прил. берёзовый, -ая, -ое. Б. сок. Б. веник. Берёзовая каша (о наказании розгами; устар. шутл.). Семейство берёзовых (сущ.). (С.И. Ожегов, Н.Ю. Шведова. Словарь русского языка) БЕРЕЗА - род деревьев и кустарников семейства березовых. Обычно выделяют (по другим данным, 65) видов, в умеренных и холодных поясах Северного полушария и в горах субтропиков. Лесообразующая и декоративная порода. Наибольшее хозяйственное значение имеют береза повислая, или бородавчатая, и береза пушистая. Древесину используют в мебельном производстве, на поделки; почки и листья как мочегонное, желчегонное средства. 5 видов охраняются. (БЭС)родпородазначениеилипочки БЕРЕЗА дерево, символизирующее весну и воскресение. Культ березы был характерен для стран севера и востока Европы. У скандинавов она атрибут богини земли Нертус. Кельты одевали на голову умершим погребальные шапки из березовой коры. Мотив березы использовался у кельтских друидов в мистерии празднования зимнего солнцестояния. Тюркская богиня Умайя снизошла с неба на землю с двумя березами. Береза в представлении народов Севера шаманское дерево, соединяющее землю и небо. Зарубки, отмечаемые шаманом на березе, символизируют лестницу в высшие миры. Камчадалы использовали ветви березы в сакральном празднике метел. У древних славян береза связывалась с душами умерших отсюда амбивалентное отношение к ней: почитание в качестве символа предков и характеристика как нечистого дерева. В ветвях березы обитают русалки, а на березовых метлах совершают свои полеты ведьмы. Но вместе с тем березовые ветви один из самых распространенных у славян оберегов. Березовые ветви преграждали нечистой силе путь в жилище человека. Береза символизирует девичество, поэтому в лирической поэзии береза аллегорически изображает девушку. Береза обладает целебными качествами: так, березовый сок способствует очищению крови. Используемый в бане березовый веник служит средством ритуального очищения. Семантика березы белый цвет. Береза использовалась в магических целях. Цыганские гадатели обворачивали вокруг нее нательную рубаху, после чего первый услышанный звук истолковывался как предсказание. На "зеленые святки" в России девушки производили обряд "заламывания березы". На дереве скручивали ветви, заплетали их в косички, обвешивали бусами и платками. Считалось, что этот ритуал должен помочь заключению брака. Гадали и по брошенным в реку березовым венкам. Часто береза используется в качестве символа России. (Энциклопедия символов, знаков, эмблем. М., 1999; О Великих Господских и Богородичных праздниках. М., 1990.)

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ Лексическая связность текста как проявление глобальной связности текста Какую информацию можно извлечь из данных микротекстов? Глокая куздра штеко будланула бокра и кудрячит бокренка (Л.В. Щерба) Colorless green ideas sleep furiously (Н. Хомский) (Л. Петрушевская) Сяпала Калуша с Калушатами по напушке. И увазила Бутявку, и валит: Калушата! Калушаточки! Бутявка! Калушата присягали и Бутявку стрямкали. И подудонились. А Калуша валит: Оее! Оее! Бутявка-то некузявая! Калушата Бутявку выучили. Бутявка вздребезнулась, сопритюкнулась и усяпала с напушки. А Калуша валит калушатам: Калушаточки! Не трямкайте бутявок, бутявки дюбые и зюмо-зюмо некузявые. От бутявок дудонятся. А Бутявка валит за на пушкой: Калушата подудонились! Зюмо некузявые! Пуськи бятые!

ПАРАДИГМАТИКА Парадигматические отношения в лексике – это отношения, рассматривающие слова как сосуществующие в языке, в словаре, в сознании носителей. В парадигматике слова связаны друг с другом отношениями сходства и различия (ассоциативно). Так, различают отношения: а) сходства в плане содержания (ПС) - синонимы; б) сходства в плане выражения (ПВ) - омонимы; в) неполного (частичного) сходства как в ПС, так и в ПВ - паронимы; г) включения – лексико-семантические, или тематические поля; д) противопоставления – антонимы. Вышеперечисленные отношения являются разновидностями парадигматических отношений и составляют лексическую парадигму. Семная структура слова – основа парадигматических отношений. Эти отношения не являются линейными. Существуют in absentia, «по вертикали»

СИНТАГМАТИКА Синтагматические отношения – это отношения слов в речевом потоке в процессе сочетания их с другими словами. По способности слов вступать в различные сочетания различают лексические значения слов свободные и несвободные, фразеологически связанные и синтаксически обусловленные. Существуют in presentia Отношения «по горизонтали» Валентность

ЭПИДИГМАТИКА Системность в лексике была обогащена введением в ее описание «третьего измерения», относящегося к деривационным связям слов и получившего у Д. Н. Шмелева название эпидигматики. Последняя отражает способность слова, благодаря словообразованию и процессам его семантического развития, входить одновременно в различные лексико- семантические парадигмы и демонстрировать таким образом помимо синтагматических и чисто парадигматических еще и эпидигматические связи.

«ВСЕОБЩИЙ ТЕЗАУРУС МИРА» «Весь окружающий нас мир можно рассматривать как множество, состоящее из двух элементов: предметов и их отношений. Этот реально существующий мир отражается в сознании человека в форме взаимосвязанных понятий, т.е. в такой форме мышления, при которой в сознании фиксируются только существенные признаки предмета. Все понятия естественного языка, служащие для описания окружающего мира, представляют всеобщий тезаурус мира, отражающий весь универсум наших знаний. Всеобщий тезаурус можно подразделить на частные тезаурусы путем выделения совокупности однородных понятий по их иерархическому уровню или путем выделения понятия, которыми можно описать какую-либо специфическую часть мира. Таким образом, на основе всеобщего тезауруса можно составить бесконечное множество тезаурусов по различным областям науки и техники, по отдельным проблемам и задачам…». Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М., С. 15.

ОПРЕДЕЛЕНИЕ ТЕЗАУРУСА (от греч. thesauros - сокровище),..1) словарь, в котором максимально полно представлены слова языка с примерами их употребления в тексте (в полном объеме осуществим лишь для мертвых языков)…2) Словарь, в котором слова, относящиеся к каким- либо области знания, расположены по тематическому принципу и показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами. В информационно- поисковых тезаурусах лексические единицы текста заменяются дескрипторами. БСЭ Тезаурусы Информационно- поисковые тезаурусы Идеографические словари Ассоциативные словари Лингвистические ресурсы типа WordNet и EuroNet

ТЕЗАУРУС Два независимых признака 1. Концептуальный вход 2. Фиксированные семантические связи между единицами Никитина С.Е.

ТИПЫ ТЕЗАУРУСОВ Первый этап создания словарей: 1. Attikai Lexeis греческого грамматика, директора Александрийской библиотеки Аристофана Византийского (II в. до н.э.) 2. «Ономастикон» лексикографа и софиста Юлия Поллукса (II в. н.э.) 3. Санскритский словарь «Амаракоша» (II-III вв. н. э.) - древнеиндийский поэт, грамматик и лексикограф Амара Сина Тезаурус – особый вид словаря – идеографический словарь, лексика в котором систематизирована по тематическому принципу

КЛАССИФИКАЦИЯ В СЛОВАРЕ Ю. ПОЛЛУКСА Боги. Места культа, алтари и храмы. Создание и разрушение. Жрецы. Провидцы и искусство провидения. Благочестивые и безбожники. Короли, купцы, ремесленники. Дом, корабль. Погода. Армия. Лошади и искусство верховой езды. Домашние животные. Сельское хозяйство, плуг, средства перемещения, пчелы. Человек. Возрастные отличия. Рождение человека. Части тела. Пол. Родство. Брак. Дети. Друзья. Господа и рабы. Строительное дело. Географическое положение. Путешествие. Печаль, радость. Образование: грамматика и риторика. Философы и софисты. Поэты и музыканты. Музыкальные инструменты. Танцы, театр. Астрономия. Медицина и болезни. Охота. Собаки. Животные, на которых охотятся. Женские украшения. Мужество, страх. Фармацевтическое дело. Молитва. Слава. Гости. Вино и продукты. Еда. Застольная беседа. Рынок. Купля и продажа. Торговцы. Товары. Деньги. Суд. Судья. Процессы. Наказания. Доносчик. Административное деление. Город. Общественные здания. Игры детей и взрослых. Утварь.

КЛАССИФИКАЦИЯ В СЛОВАРЕ «АМАРАКОША» КНИГА I Глава 1. Секции: Небо, боги, титаны и их атрибуты. Небесный свод, атмосфера, планеты, звезды. Времена года, фазы луны, затмения. Преступление, добродетель, счастье, судьба, характер, ум, чувства, вкус, запах, цвет. Слово, язык, сочинение. Звук. Музыка, танцы, драматические представления, празднества. Глава 2. Секции: Области ада, темь, змеи, яды. Потусторонний мир, души усопших, несчастье, страдание. Моря, вода, острова, реки, суда, рыба, водоемы, водоросли. КНИГА II Глава 1. Земля, солнце, страна, дороги, меры длины. Глава 2. Города, здания, жилище. Глава 3. Горы, скалы, источники, пещеры, минералы. Глава 4. Секции: …Леса, сады, деревья, растения, части растения. …Деревья разных пород. …Лекарственные растения. …Полезные растения. …Огородные растения, травы. Глава 5. Львы и другие четвероногие, насекомые, птицы, стаи, стада.. Глава 6. Секции: …Мужчины, женщины, родственники, государства, учреждения. …Здоровье, лекарства, болезни, части тела. …Одежда, украшения, благовония, гирлянды. Глава 7. Расы, секты, режимы, сословие жрецов, жертвоприношение, милостыня, самоистязание, учение, брак, цель человеческой жизни. Глава 8. Секции: …Сословие воинов, короли, министры, враги, союзники, оборона, победа, доходы, знаки королевского отличия. …Лагерь, армия, оружие, война, резня, похороны, тюрьма. Глава 9. Третье сословие, профессии, земледельцы, поле, зерно, орудия труда, пища, тягловый скот, торговля, меры. Глава 10. Четвертое сословие, арендаторы, ремесленники, артисты, музыканты, охота, охотники, собаки, дичь, орудия, умения, спиртные напитки, игрища.

ТИПЫ ТЕЗАУРУСОВ Второй этап создания словарей: 1. Тезаурус Питера Марка Роже (Thesaurus Rougue) – 1852 г. Понятийное поле английского языка: абстрактные отношения; пространство; материя и дух (разум, воля, чувства). Схема классификации была приспособлена для французского языка Т. Робертсоном (1859 г.), для немецкого языка Д. Зандерсом (1877 г.) и А. Шлессингом (1881 г.), для испанского языка Д. Э. Бенотом (1889 г.) и Н. Сампером (1912 г.).

ОТНОШЕНИЯ В ТЕЗАУРУСЕ Основными отношениями в тезаурусе являются: Синонимия – связь между словами одной части речи, различных по звучанию и написанию, но имеющих одинаковое или очень близкое лексическое значение, например: кавалерия – конница, смелый – храбрый; Антонимия (и контрастивы) – связь между словами одной части речи, различных по звучанию, имеющих прямо противоположные значения: правда – ложь, добрый – злой; Гипонимия/гиперонимия. Гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Гипоним – слово с более узким значением, называющее предмет (свойство, признак) как элемент класса (множества). Эти отношения транзитивны и несимметричны. Гипоним наследует все свойства гиперонима. Являются центральными отношениями для описания существительных; Меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ». Внутри этого отношения выделяются отношения «быть элементом» и «быть сделанным из». Отношение определено только для существительных; Следствие (это отношение связывает между собой глаголы); Причина (также определено для глаголов).

Н.Э. ГРОНСКАЯ, Н.Ю. РУСОВА ЛЕКСИКОН ВЛАСТИ Словарь-тезаурус политических ассоциаций

ИНФОРМАЦИОННО- ПОИСКОВЫЙ ТЕЗАУРУС Цели создания ИПТ: 1. Обеспечение перевода содержания документа и поискового запроса на один «язык» = единицы тезауруса 2. Отношения между терминами дают возможность описать документ оптимальными терминами тезауруса 3. ИПТ используется как поисковое средство при поиске документа Основная единица – термины предметной области – дескриптор Это нормативный словарь, указывающий отношения между терминами и служащий для описания содержания документов. Инструмент для ручного описания содержания документа специалистами- индексаторами

ИНФОРМАЦИОННО- ПОИСКОВЫЙ ТЕЗАУРУС 1. Отбор терминов для включения в тезаурус (источники: близкие по предметной области тезаурусы, сами тексты, эксперты). 2. Удаление слишком частотных и малочастотных терминов. 3. Удаление слишком конкретных терминов (ограничение количества уровней иерархии) Поисковый образ - текст, состоящий из лексических единиц информационно- поискового языка, выражающий содержание документа или информационного запроса и предназначенный для реализации информационного поиска. Основные принципы разработки тезаурусов – «золотая середина» между достаточным количеством терминов и возникающей субъективностью индексатора В среднем в тезаурусе – терминов и дескрипторов

ИНФОРМАЦИОННО- ПОИСКОВЫЙ ТЕЗАУРУС Два типа отношений: Иерархические (не более 9 уровней иерархии) Ассоциативные

ТЕЗАУРУС ИССЛЕДОВАТЕЛЬСКОЙ СЛУЖБЫ КОНГРЕССА США (LEGISLATING INDEXING VOCABULARY 1967 – 1995 гг. 10 тыс. терминов, 5 тыс. дескрипторов Используется для индексирования и поиска законов, законопроектов, политической литературы в исследовательской службе Конгресса США Дескрипторы именуют 80 тематических областей (top terms)

КОНКРЕТНЫЕ ТЕЗАУРУСЫ Тезаурус Евросоюза (EUROVOC) – на 9 языках, ручное индексирование, 2001 г. – русская версия Тезаурус ООН URBUS – на всех официальных языках ООН, многоотраслевой Тезаурус по архитектуре и искусству (Art and Architecture Thesaurus) – 34 тыс. дескрипторов, 131 тыс. терминов, 7 фасетов, 33 иерархии; полное покрытие искусства Западной Европы и Америки Тезаурус в области медицины (Medical Subject Headings), США, медико-биологическая сфера, 25 тыс. дескрипторов

ОСНОВНЫЕ МЕТОДЫ ИНДЕКСИРОВАНИЯ ДОКУМЕНТА Цель КИ – включение в поисковый образ документа (ПОД) всех необходимых терминов Смысл текста можно передать набором ключевых слов КИ может быть свободным (авторским) и нормализованным Возможно введение весов для дескрипторов (главная тема, побочная тема, вспомогательные понятия) Координатное индексирование Создание рубрикатора параллельно с созданием тезауруса (сверху, в то время как тезаурус создается снизу – от терминов)

ИТОГ Информационно-поисковый тезаурус – искусственный язык описания текстов (документов) определенной предметной области Эти тезаурусы сложно вписываются автоматическую обработку документов Предполагают ручное индексирование документов

ВЫВОДЫ Тезаурусный метод извлечения и представления (поиска) лексической информации опирается на системные связи в лексической системе языка (парадигматика, синтагматика, эпидигматика) Отличительные черты всех тезаурусов : 1. Концептуальный вход 2. Фиксированные семантические связи между единицами ИПТ – это нормативный словарь, указывающий отношения между терминами и служащий для описания содержания документов. ИПТ является инструментом для ручного описания содержания документа специалистами-индексаторами