Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемdownload.yandex.ru
1 Лекция 8. Языки запросов корпусных менеджеров. Выходные интерфейсы В.П. Захаров Санкт-Петербургский государственный университет
2 Лекция 8Корпусная лингвистика2 Обобщенная структурная модель языка запросов Собственно поисковые элементы (термины, выражающие информационную потребность, и т.п.) Средства морфологической нормализации текстовых элементов запроса Поисковые (булевские) операторы Средства линейной грамматики (операторы расстояния, позиционные операторы) Дополнительные условия поиска: поиск в определенных полях (частях) документа; ограничение области поиска по языку, региону, дате создания документа; и т.п Средства управления критерием смыслового соответствия Требование на сортировку (ранжирование) выдаваемых результатов поиска Требования к форме представления результатов поиска: вид выдаваемых результатов; количество выдаваемых документов; и т.п.
3 Лекция 8Корпусная лингвистика3 Способы задания запроса Два подхода (базируются на языке регулярных выражений): оконный интерфейс см. далее язык запросов BONITO формализованный язык запросов см. далее язык запросов DDC
4 Лекция 8Корпусная лингвистика4 Язык регулярных выражений Каждое выражение состоит из одной или нескольких управляющих команд. Некоторые из них можно группировать, и тогда они считаются за одну команду. Все управляющие команды разбиваются на три класса: простые символы, а также управляющие символы, играющие роль их заменителей; управляющие конструкции (квантификаторы повторений, оператор альтернативы, группирующие скобки и т.д.); так называемые мнимые символы (в строке их нет, но они "помечают" какую-то часть строки - например, ее конец).
5 Лекция 8Корпусная лингвистика5 Язык регулярных выражений (2) Простые символы Класс простых символов, действительно, самый простой. А именно, любой символ в строке на языке RegEx обозначает сам себя, если он не является управляющим. К управляющим символам причисляются следующие:.*?+[]{}|$^ Группы символов " л.к " " л[иуа]к " Квантификаторы повторений Ноль и более совпадений: "19*8« Одно и более совпадений: "[а-я]+-[а-я]+" Ноль или одно совпадение: "Петров[аы]?" Заданное число совпадений: А{n,m} - указывает, что символ "А" может быть повторен от n до m раз; А{n} - символ "А" должен быть повторен ровно n раз; А{n, } - символ "А" может быть повторен n или более раз.
6 Лекция 8Корпусная лингвистика6 Bonito/Manatee Язык запросов поиск отдельных атрибутов (словоформа, лемма, тэг); использование регулярных выражений; логические операторы; средства задания структуры (границы предложения и др.); быстрая обработка сложных запросов; шаблоны; Конкордансные списки история запросов пользователя; просмотр морфологических характеристик словоформы; отображение леммы; Операции над конкордансом сохранение списков в файл; печать списков; сортировка по ключевым словам, контексту; фильтрация (удаление части построенных конкордансов); удаление повторений.
7 Лекция 8Корпусная лингвистика7 Bonito: запросы Пользователь может ввести собственно запрос, сформулированный по правилам языка запросов системы, или шаблон (готовый или созданный пользователем) в окно запросов. Запрос состоит из двух частей: тип запроса (выбирается кнопкой-меню в верхнем левом углу окна); текст запроса или шаблона (набирается в первом окне ввода).
8 Лекция 8Корпусная лингвистика8 Bonito: примеры запросов Пример 1. Поиск синтагмы Допустим, мы хотим найти разрывную синтагму "take (smth) out". В окно запроса вводится "take". Строится конкорданс для данного КС. Выбирается тип запроса Положительный фильтр (P-filter). В оба окна "From:" и "To:" вводится значение "2", что соответствует второй позиции справа от найденного слова для "оторванной" части синтагмы (у нас "out"). В окно запроса вводим "out". Выдается: for governor would force it to petitions out into voting the peasant. Nonetheless, they time out -- much time -- Mis-ter McBride. You do that or you out a permit right now
9 Лекция 8Корпусная лингвистика9 Bonito: поиск всех форм слова по лемме В окно запроса вводится "[lemma="be"] within ". Выдается: DECISIONS MADE Asked to elaborate LEADERSHIP HOPEFUL The housingNations. FORMULA DUE THIS WEEK The Advisory year. COULD SCRAMBLE Some predict ends. CHOICE EXPECTED The selection TOBACCO ROAD DEAD. LONG LIVE TOBACCO
10 Лекция 8Корпусная лингвистика10 Bonito: поиск по морфологическим признакам (1) a sequence of an adjective, a noun, a conjunction and another noun: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; (takes some time to compute) a noun, followed by either is or was, followed by a verb ending in ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; similar, but is or was followed by a past participle (which is described by a special POS tag): [pos="N.*"] "is|was" [pos="VBD"]; catch or caught, followed by a determiner, any number of adjectives and a noun, or a noun, followed by was or were, followed by caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught"; (due to the truncation to 15 concordance lines in this demo version, you will only get results matching the first disjunct of this query) look or bring, followed by either up or down with at most 10 non-verbs in between: "look|bring" [pos != "VB.*"]{0,10} "up|down"
11 Лекция 8Корпусная лингвистика11 Bonito: поиск по морфологическим признакам (2) В окно запроса вводится "[tag="VVZv"]". Выдается: charge of the election, " the praise and thanks of the However, the jury said it " these two offices should be of Fulton County, which none of this money ". The when the new management charge Jan. 1 the airport be face is a state law which that before making a first Пример демонстрирует возможность корпусного менеджера искать словоформы по морфологическим признакам. Код "VVZv" означает, что это третье лицо ед.ч. (Zv) значимого глагола (VV). Такая кодировка предложена схемой аннотирования SUSANNE. Следовательно, данная возможность будет успешно использоваться теми, кто знаком с принципами данной схемы аннотирования.
12 Лекция 8Корпусная лингвистика12 Bonito: Поиск конкретной словоформы (КС) В окно запроса вводится КС "run". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the May, said today Jones will well ahead of his GOP opponents reports that he had decided to and wanted Mr. Screvane, investigation Street car tracks down the center of Pennsylvania Система ищет полное соответствие запрашиваемому слову и выдает результат. Иных словоформ для КС "run" не будет найдено.
13 Лекция 8Корпусная лингвистика13 Bonito: Поиск синтагмы В окно запроса вводится "run in". Выдается: contest. The Orioles got a the first inning when Breeding record in the yard the Knights of Columbus track The Bears added their last the sixth on Alusik 's double for the third Indianapolis the ninth. Despite the 45 's first major league home the fifth put the Sox back Словоформы ищутся в строго заданном (линейном) порядке, как неразрывная синтагма.
14 Лекция 8Корпусная лингвистика14 Bonito: Поиск различных форм слова (1) В окно запроса вводится "runs? in". Выдается: tied the game, and single the eighth and ninth gave record in the yard the Knights of Columbus track their eight hits for two the sixth. Chuck Hinton The Bears added their last the sixth on Alusik 's double 's first major league home the fifth put the Sox back В данном запросе используется управляющий символ "?", который означает, что предшествующая ему буква "s" может встретиться ноль или один раз. Полученный результат подтверждает это.
15 Лекция 8Корпусная лингвистика15 Bonito: Поиск различных форм слова (2) В окно запроса вводится "run(|s|ning)". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the the group are interested in on the required non - lawyer and former FBI man is against the Republican tied the game, and single in the eighth and ninth gave Здесь используются группирующие скобки и оператор альтернативы ( | ) (логическое "или"). То есть, системе дается команда найти КС "run" или "runs" или "running".
16 Лекция 8Корпусная лингвистика16 Корпусный менеджер DDC: язык запросов (1) (Dialing-DWDS-Concordance) Тип запроса НазначениеПримерРезультат WordОписание словадомВсе предложения, в которых есть морфологический вариант слова «дом». Word*Описание словадо*Все предложения, в которых есть слово, имеющее префикс «до». /regexp/Описание слова регулярным выражением /^до.*ло$/Все предложения, в которых есть слово, имеющее префикс «до» и постфикс «до». *WordОписание слова*доВсе предложения, в которых есть слово, имеющее постфикс «до».
17 Лекция 8Корпусная лингвистика17 Корпусный менеджер DDC: язык запросов (2) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат [PartOfSpeech Features] описание слова[C ед] [Г пвл] "PartOfSpeech" - часть речи, "Features" - граммемы (см. ниже полный список граммем и частей предложения, в которых есть словоформа "дом" (точное соответствие) "X1 X2... XN"последовательность слов "мой новый дом" "дом [Г]" все предложения, в которых есть "мой новый дом" все предложения, в которых есть "дом", за которым сразу идет какой-нибудь глагол Q1 && Q2конъюнкция описаний слов или последовательностей слов дом && [С ед] все предложения, в которых есть "дом" и существительное в единственном числе
18 Лекция 8Корпусная лингвистика18 Корпусный менеджер DDC: язык запросов (3) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат Q1 && !Q2конъюнкция описаний слов или последовательностей слов с отрицанием [С ед] && !дом все предложения, в которых есть существительное в единственном числе, но нет слова "дом" Q1 || Q2дизъюнкция описаний слов или последовательностей слов [Г 2л] || "мой дом" все предложения, в которых есть глагол во втором лице или словосочетание "мой дом" near(Q1;Q2;n)два слова рядом друг с другом 0
19 Лекция 8Корпусная лингвистика19 Корпусный менеджер DDC: язык запросов (4) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат "X1 #D1 X2 #D2 : XN" последовательность слов с максимальными дистанциями "мой #1 дом" все предложения, в которых есть "мой", за которым следует "дом", и между ним не больше одного слова A with Bконъюктивное описание слова (должно одновременно выполняться А и B) петух with [C им] поиск слова петух, которому приписана морф. интерпретация [C им]
20 Лекция 8Корпусная лингвистика20 Корпусный менеджер CQP (1) (Corpus Query Processor) Способы задания запросов: простой поиск, подобный использованию Google, задан по умолчанию; поиск точной последовательности с использованием упрощенного языка запросов (кавычки); поиск с использованием всех возможностей CQP. Слово в запросе может быть представлено: словоформой (setting); леммой – необходим знак % (set% означает set, sets, setting); набором словоформ или лемм со знаком дизъюнкции |, для нахождения одного или другого слова запроса, например indignation|resentment indignation ИЛИ resentment; для поиска набора лемм используется % в конце всего выражения (absorb|accumulate% для поиска absorbed, accumulates и т.д.); подцепочкой.*, e.g. indigna.* находит indignant и indignation неизвестным словом. (точка); последовательностью неизвестных слов, которые могут быть заданы.. (две точки соответствуют возможному интервалу между словами) или диапазоном..N-M (где N и M соответствуют минимальному и максимальному количеству слов в интервале).
21 Лекция 8Корпусная лингвистика21 Корпусный менеджер CQP (2) (Corpus Query Processor) Примеры запросов: thank верхний или нижний регистр: "[tT]hank"; Слово, начинающееся с confuse, за которым следует предлог или личное местоимение: "confuse.*" [pos="IN" | pos="PP"]; или "confuse.*" ([pos="IN"] | [pos="PP"]); или "confuse.*" [pos="IN|PP"]; то же самое, но на расстоянии от 0 до 10 слов: "confuse.*" []{0,10} [pos="IN" | pos="PP"]; то же самое, но без точек между: "confuse.*" [word!="\."]{0,10} [pos="IN" | pos="PP"]; (надо использовать \, иначе будут исключены все односимвольные слова)
22 Лекция 8Корпусная лингвистика22 Входной интерфейс для поиска в НКРЯ
23 Лекция 8Корпусная лингвистика23 Входной интерфейс для грамматического поиска в НКРЯ
24 Лекция 8Корпусная лингвистика24 Выходной интерфейс НКРЯ
25 Лекция 8Корпусная лингвистика25 SARA: корпусный менеджер BNC
26 Лекция 8Корпусная лингвистика26 Выходной интерфейс BNC
27 Лекция 8Корпусная лингвистика27 Выходной интерфейс Bonito (Marie Kopřivová, Jan Kocek)
28 Лекция 8Корпусная лингвистика28 Выходной интерфейс DDC
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.