Лекция 8. Языки запросов корпусных менеджеров. Выходные интерфейсы В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Запросы в базе данных. Понятия запроса При работе с таблицами можно в любой момент выбрать из базы данных необходимую информацию с помощью запросов. Запрос.
Advertisements

СУБД 5. SQL для выборки данных. 2 SELECT Обработка элементов оператора SELECT выполняется в следующей последовательности: FROM – определяются имена используемых.
Form 9 Revision. 1) What ___ you do if you won lots of money? a) WILL b) WONT c) WOULD e) WOULDNT.
Tregubenko N.V. 1 Sequence of Tenses Согласование времён.
« Формирование запросов на выборку в БД » « Формирование запросов на выборку в БД » Цель– научиться создавать простые запросы на выборку информации.
1 Лекция 6 Команды категории извлечения данных языка структурированных запросов SQL План лекции Выборка определенных столбцов таблицы Устранение избыточных.
Речь какого-нибудь лица, передаваемая буквально так, как она была произнесена, называется прямой речью (direct speech). Речь, передаваемая не слово в.
Take me back to prison. There was a king who thought that he could paint very well. His pictures were bad. But the people were afraid of the king. They.
1 Программирование на языке Паскаль Ветвления. 2 Разветвляющиеся алгоритмы Задача. Ввести два целых числа и вывести на экран наибольшее из них. Идея решения:
MERRY CHRISTMAS.. Christmas is the time when Christians around the world celebrate the birth of Jesus. Every year in December we celebrate the Birthday.
Предлоги1.Выберите правильный ответ предлога : There was crying baby … board.
МОУ СОШ 15 Оборот there is (there are) В настоящем и прошедшем временах группы Indefinite. Выполнила: Ученица 9 «б» класса Воронина Н. Проверила: Артамонова.
No School Please. I don't want to go to school today Everybody has days when they don't feel like doing something.
PERFECT CONTINUOUS 1) Emphasis on the duration of an action that started and finished in the past before another past action Ex. They had been looking.
Funny Story Работа с аудиотекстом на английском языке.
The Mouse and the Corn. Many, many years ago there lived a king who said that anyone who could tell a story for two years would get a piece of land.
Рекомендации к составлению сочинения- выражения своего мнения 1. Используйте формальный стиль письма, а именно: Избегайте сокращенных форм (cant – can.
LET US LEARN and PRACTICE! Conditional 0 If +Present Simple, Present simple Real actions -100% Situations that are always true if something happens.
PERFECT CONTINUOUS a.Emphasis on the duration of an action up to a certain time in the future I, You, We, they WILL HAVE He, she, it BE DOING by … for.
Презентация к уроку (9 класс) на тему: Рождество в США
Транксрипт:

Лекция 8. Языки запросов корпусных менеджеров. Выходные интерфейсы В.П. Захаров Санкт-Петербургский государственный университет

Лекция 8Корпусная лингвистика2 Обобщенная структурная модель языка запросов Собственно поисковые элементы (термины, выражающие информационную потребность, и т.п.) Средства морфологической нормализации текстовых элементов запроса Поисковые (булевские) операторы Средства линейной грамматики (операторы расстояния, позиционные операторы) Дополнительные условия поиска: поиск в определенных полях (частях) документа; ограничение области поиска по языку, региону, дате создания документа; и т.п Средства управления критерием смыслового соответствия Требование на сортировку (ранжирование) выдаваемых результатов поиска Требования к форме представления результатов поиска: вид выдаваемых результатов; количество выдаваемых документов; и т.п.

Лекция 8Корпусная лингвистика3 Способы задания запроса Два подхода (базируются на языке регулярных выражений): оконный интерфейс см. далее язык запросов BONITO формализованный язык запросов см. далее язык запросов DDC

Лекция 8Корпусная лингвистика4 Язык регулярных выражений Каждое выражение состоит из одной или нескольких управляющих команд. Некоторые из них можно группировать, и тогда они считаются за одну команду. Все управляющие команды разбиваются на три класса: простые символы, а также управляющие символы, играющие роль их заменителей; управляющие конструкции (квантификаторы повторений, оператор альтернативы, группирующие скобки и т.д.); так называемые мнимые символы (в строке их нет, но они "помечают" какую-то часть строки - например, ее конец).

Лекция 8Корпусная лингвистика5 Язык регулярных выражений (2) Простые символы Класс простых символов, действительно, самый простой. А именно, любой символ в строке на языке RegEx обозначает сам себя, если он не является управляющим. К управляющим символам причисляются следующие:.*?+[]{}|$^ Группы символов " л.к " " л[иуа]к " Квантификаторы повторений Ноль и более совпадений: "19*8« Одно и более совпадений: "[а-я]+-[а-я]+" Ноль или одно совпадение: "Петров[аы]?" Заданное число совпадений: А{n,m} - указывает, что символ "А" может быть повторен от n до m раз; А{n} - символ "А" должен быть повторен ровно n раз; А{n, } - символ "А" может быть повторен n или более раз.

Лекция 8Корпусная лингвистика6 Bonito/Manatee Язык запросов поиск отдельных атрибутов (словоформа, лемма, тэг); использование регулярных выражений; логические операторы; средства задания структуры (границы предложения и др.); быстрая обработка сложных запросов; шаблоны; Конкордансные списки история запросов пользователя; просмотр морфологических характеристик словоформы; отображение леммы; Операции над конкордансом сохранение списков в файл; печать списков; сортировка по ключевым словам, контексту; фильтрация (удаление части построенных конкордансов); удаление повторений.

Лекция 8Корпусная лингвистика7 Bonito: запросы Пользователь может ввести собственно запрос, сформулированный по правилам языка запросов системы, или шаблон (готовый или созданный пользователем) в окно запросов. Запрос состоит из двух частей: тип запроса (выбирается кнопкой-меню в верхнем левом углу окна); текст запроса или шаблона (набирается в первом окне ввода).

Лекция 8Корпусная лингвистика8 Bonito: примеры запросов Пример 1. Поиск синтагмы Допустим, мы хотим найти разрывную синтагму "take (smth) out". В окно запроса вводится "take". Строится конкорданс для данного КС. Выбирается тип запроса Положительный фильтр (P-filter). В оба окна "From:" и "To:" вводится значение "2", что соответствует второй позиции справа от найденного слова для "оторванной" части синтагмы (у нас "out"). В окно запроса вводим "out". Выдается: for governor would force it to petitions out into voting the peasant. Nonetheless, they time out -- much time -- Mis-ter McBride. You do that or you out a permit right now

Лекция 8Корпусная лингвистика9 Bonito: поиск всех форм слова по лемме В окно запроса вводится "[lemma="be"] within ". Выдается: DECISIONS MADE Asked to elaborate LEADERSHIP HOPEFUL The housingNations. FORMULA DUE THIS WEEK The Advisory year. COULD SCRAMBLE Some predict ends. CHOICE EXPECTED The selection TOBACCO ROAD DEAD. LONG LIVE TOBACCO

Лекция 8Корпусная лингвистика10 Bonito: поиск по морфологическим признакам (1) a sequence of an adjective, a noun, a conjunction and another noun: [pos="JJ.*"] [pos="N.*"] "and|or" [pos="N.*"]; (takes some time to compute) a noun, followed by either is or was, followed by a verb ending in ed: [pos="N.*"] "is|was" [pos="V.*" & word=".*ed"]; similar, but is or was followed by a past participle (which is described by a special POS tag): [pos="N.*"] "is|was" [pos="VBD"]; catch or caught, followed by a determiner, any number of adjectives and a noun, or a noun, followed by was or were, followed by caught: "catch|caught" [pos="DT"] [pos="JJ"]* [pos="N.*"] | [pos="N.*"] "was|were" "caught"; (due to the truncation to 15 concordance lines in this demo version, you will only get results matching the first disjunct of this query) look or bring, followed by either up or down with at most 10 non-verbs in between: "look|bring" [pos != "VB.*"]{0,10} "up|down"

Лекция 8Корпусная лингвистика11 Bonito: поиск по морфологическим признакам (2) В окно запроса вводится "[tag="VVZv"]". Выдается: charge of the election, " the praise and thanks of the However, the jury said it " these two offices should be of Fulton County, which none of this money ". The when the new management charge Jan. 1 the airport be face is a state law which that before making a first Пример демонстрирует возможность корпусного менеджера искать словоформы по морфологическим признакам. Код "VVZv" означает, что это третье лицо ед.ч. (Zv) значимого глагола (VV). Такая кодировка предложена схемой аннотирования SUSANNE. Следовательно, данная возможность будет успешно использоваться теми, кто знаком с принципами данной схемы аннотирования.

Лекция 8Корпусная лингвистика12 Bonito: Поиск конкретной словоформы (КС) В окно запроса вводится КС "run". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the May, said today Jones will well ahead of his GOP opponents reports that he had decided to and wanted Mr. Screvane, investigation Street car tracks down the center of Pennsylvania Система ищет полное соответствие запрашиваемому слову и выдает результат. Иных словоформ для КС "run" не будет найдено.

Лекция 8Корпусная лингвистика13 Bonito: Поиск синтагмы В окно запроса вводится "run in". Выдается: contest. The Orioles got a the first inning when Breeding record in the yard the Knights of Columbus track The Bears added their last the sixth on Alusik 's double for the third Indianapolis the ninth. Despite the 45 's first major league home the fifth put the Sox back Словоформы ищутся в строго заданном (линейном) порядке, как неразрывная синтагма.

Лекция 8Корпусная лингвистика14 Bonito: Поиск различных форм слова (1) В окно запроса вводится "runs? in". Выдается: tied the game, and single the eighth and ninth gave record in the yard the Knights of Columbus track their eight hits for two the sixth. Chuck Hinton The Bears added their last the sixth on Alusik 's double 's first major league home the fifth put the Sox back В данном запросе используется управляющий символ "?", который означает, что предшествующая ему буква "s" может встретиться ноль или один раз. Полученный результат подтверждает это.

Лекция 8Корпусная лингвистика15 Bonito: Поиск различных форм слова (2) В окно запроса вводится "run(|s|ning)". Выдается: announced that he would not for reelection. Georgia medical benefits paid out would 1 billion or more in the the group are interested in on the required non - lawyer and former FBI man is against the Republican tied the game, and single in the eighth and ninth gave Здесь используются группирующие скобки и оператор альтернативы ( | ) (логическое "или"). То есть, системе дается команда найти КС "run" или "runs" или "running".

Лекция 8Корпусная лингвистика16 Корпусный менеджер DDC: язык запросов (1) (Dialing-DWDS-Concordance) Тип запроса НазначениеПримерРезультат WordОписание словадомВсе предложения, в которых есть морфологический вариант слова «дом». Word*Описание словадо*Все предложения, в которых есть слово, имеющее префикс «до». /regexp/Описание слова регулярным выражением /^до.*ло$/Все предложения, в которых есть слово, имеющее префикс «до» и постфикс «до». *WordОписание слова*доВсе предложения, в которых есть слово, имеющее постфикс «до».

Лекция 8Корпусная лингвистика17 Корпусный менеджер DDC: язык запросов (2) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат [PartOfSpeech Features] описание слова[C ед] [Г пвл] "PartOfSpeech" - часть речи, "Features" - граммемы (см. ниже полный список граммем и частей предложения, в которых есть словоформа "дом" (точное соответствие) "X1 X2... XN"последовательность слов "мой новый дом" "дом [Г]" все предложения, в которых есть "мой новый дом" все предложения, в которых есть "дом", за которым сразу идет какой-нибудь глагол Q1 && Q2конъюнкция описаний слов или последовательностей слов дом && [С ед] все предложения, в которых есть "дом" и существительное в единственном числе

Лекция 8Корпусная лингвистика18 Корпусный менеджер DDC: язык запросов (3) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат Q1 && !Q2конъюнкция описаний слов или последовательностей слов с отрицанием [С ед] && !дом все предложения, в которых есть существительное в единственном числе, но нет слова "дом" Q1 || Q2дизъюнкция описаний слов или последовательностей слов [Г 2л] || "мой дом" все предложения, в которых есть глагол во втором лице или словосочетание "мой дом" near(Q1;Q2;n)два слова рядом друг с другом 0

Лекция 8Корпусная лингвистика19 Корпусный менеджер DDC: язык запросов (4) (Dialing-DWDS-Concordance) Тип запросаНазначениеПримерРезультат "X1 #D1 X2 #D2 : XN" последовательность слов с максимальными дистанциями "мой #1 дом" все предложения, в которых есть "мой", за которым следует "дом", и между ним не больше одного слова A with Bконъюктивное описание слова (должно одновременно выполняться А и B) петух with [C им] поиск слова петух, которому приписана морф. интерпретация [C им]

Лекция 8Корпусная лингвистика20 Корпусный менеджер CQP (1) (Corpus Query Processor) Способы задания запросов: простой поиск, подобный использованию Google, задан по умолчанию; поиск точной последовательности с использованием упрощенного языка запросов (кавычки); поиск с использованием всех возможностей CQP. Слово в запросе может быть представлено: словоформой (setting); леммой – необходим знак % (set% означает set, sets, setting); набором словоформ или лемм со знаком дизъюнкции |, для нахождения одного или другого слова запроса, например indignation|resentment indignation ИЛИ resentment; для поиска набора лемм используется % в конце всего выражения (absorb|accumulate% для поиска absorbed, accumulates и т.д.); подцепочкой.*, e.g. indigna.* находит indignant и indignation неизвестным словом. (точка); последовательностью неизвестных слов, которые могут быть заданы.. (две точки соответствуют возможному интервалу между словами) или диапазоном..N-M (где N и M соответствуют минимальному и максимальному количеству слов в интервале).

Лекция 8Корпусная лингвистика21 Корпусный менеджер CQP (2) (Corpus Query Processor) Примеры запросов: thank верхний или нижний регистр: "[tT]hank"; Слово, начинающееся с confuse, за которым следует предлог или личное местоимение: "confuse.*" [pos="IN" | pos="PP"]; или "confuse.*" ([pos="IN"] | [pos="PP"]); или "confuse.*" [pos="IN|PP"]; то же самое, но на расстоянии от 0 до 10 слов: "confuse.*" []{0,10} [pos="IN" | pos="PP"]; то же самое, но без точек между: "confuse.*" [word!="\."]{0,10} [pos="IN" | pos="PP"]; (надо использовать \, иначе будут исключены все односимвольные слова)

Лекция 8Корпусная лингвистика22 Входной интерфейс для поиска в НКРЯ

Лекция 8Корпусная лингвистика23 Входной интерфейс для грамматического поиска в НКРЯ

Лекция 8Корпусная лингвистика24 Выходной интерфейс НКРЯ

Лекция 8Корпусная лингвистика25 SARA: корпусный менеджер BNC

Лекция 8Корпусная лингвистика26 Выходной интерфейс BNC

Лекция 8Корпусная лингвистика27 Выходной интерфейс Bonito (Marie Kopřivová, Jan Kocek)

Лекция 8Корпусная лингвистика28 Выходной интерфейс DDC