6/7/2014 1 Корпуса Лекция 2 Автоматическая обработка текста.

Презентация:



Advertisements
Похожие презентации

Advertisements

1. Определить последовательность проезда перекрестка
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
1 Знаток математики Тренажер Таблица умножения 3 класс Школа России Масько Любовь Георгиевна Муниципальное общеобразовательное учреждение средняя общеобразовательная.
Развивающая викторина для детей "Самый-самый " Муниципальное общеобразовательное учреждение средняя общеобразовательная школа 7 ст. Беломечётской.
Набор игр Создание игровых ситуаций на уроках математики повышает интерес к математике, вносит разнообразие и эмоциональную окраску в учебную работу, снимает.
Michael Jackson
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Автор: учитель информатики МКОУ Плесской средней общеобразовательной школы Юдин Андрей Борисович Часть 1.
Topic: Telephone. Listening. Hello hello baby you 1. … I cant hear a 2… I have got no 3…. In the club, you say? say? Wha-wha-what did you say huh? Youre.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Рисуем параллелепипед Известно, что параллельная проекция тетраэдра, без учета пунктирных линий, однозначно определяется заданием проекций его вершин (рис.
ОДНОМЕРНЫЕ МАССИВЫ. РАБОТА С ЭЛЕМЕНТАМИ СТРУКТУРИРОВАННЫЕ ТИПЫ ДАННЫХ.
Иркутский государственный технический университет Центр технологий дистанционного обучения Курс в дистанционном обучении Романова Екатерина Владимировна,
Транксрипт:

6/7/ Корпуса Лекция 2 Автоматическая обработка текста

6/7/ Введение. Обработка текста. Этапы и разработка Введение. Обработка текста. Этапы и разработка Корпуса: основные понятия Корпуса: основные понятия Требования к корпусу Требования к корпусу Стандарты Стандарты Разметка Разметка

Автоматическая обработка текста. Лингвистические платформы графематический анализ графематический анализ препроцессинг (очистка текста) препроцессинг (очистка текста) токенизатор, токенизатор, сплиттер сплиттер морфологический анализ морфологический анализ нормализация (лемматизация, стемминг) нормализация (лемматизация, стемминг) частеречная разметка (POS-tagging) частеречная разметка (POS-tagging) синтаксический анализ синтаксический анализ полный синтаксический анализ, полный синтаксический анализ, chunking, chunking, shallow parsing shallow parsing 6/7/2014 3

Автоматическая обработка текста. Лингвистический конвейер ??? семантический анализ ??? семантический анализ распознавание аргументной структуры распознавание аргументной структуры semantic role labeling semantic role labeling разрешение анафоры (anaphora resolution) разрешение анафоры (anaphora resolution) дискурсивный анализ (риторические структуры) дискурсивный анализ (риторические структуры) распознавание именованных сущностей распознавание именованных сущностей извлечение фактов извлечение фактов классификация, кластеризация текстов классификация, кластеризация текстов 6/7/2014 4

Разработка модулей обучение обучение корпус текстов корпус текстов обучающий корпус vs. тестовый корпус обучающий корпус vs. тестовый корпус специальным образом отобранные тексты специальным образом отобранные тексты размеченные под проблему (аннотированные) размеченные под проблему (аннотированные) 6/7/2014 5

Разработка: корпуса Как собирать корпуса? Как собирать корпуса? Как аннотировать корпуса? Как аннотировать корпуса? специальные технологии сбора корпуса под задачу специальные технологии сбора корпуса под задачу vs. использование существующих экспертных (эталонных) корпусов vs. использование существующих экспертных (эталонных) корпусов 6/7/2014 6

Разработка: корпуса Золотой стандарт Золотой стандарт Примеры: НКРЯ со снятой омонимией НКРЯ со снятой омонимией Penn-Treebank Penn-Treebank 6/7/2014 7

Корпус Корпус – множество текстов, Корпус – множество текстов, отобранных исходя из некоторых принципов, отобранных исходя из некоторых принципов, размеченных (аннотированных) размеченных (аннотированных) в корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.) в корпусе с помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Основные единицы Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т.п.) Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т.п.) - насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.??? - насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.??? Возможный ответ: В словах

ворону Но: что такое слово? Что мы будем считать словом? Сколько слов в предложении: Сколько слов в предложении: Воронворону Ворон клетит кричит

Что такое слово? Что мы будем считать словом? Что такое слово? Что мы будем считать словом? словоупотребление словоупотребление Лемма (множество словоформ, сведенных к одной исходной форме ( лексема)) Лемма (множество словоформ, сведенных к одной исходной форме ( лексема))

6/7/ Основные единицы Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) Словоупотребление Словоупотребление Лемма (нормализованная форма) Лемма (нормализованная форма)

Лемма древних мн,од=(род|вин|пр)| =род,мн|вин,мн,од|пр,мн древние древний =S,=S, =A Является =V=не прош,ед,изъяв,3 л,нсв, =V=не прош,ед,изъяв,3-л,нсв страд являть являться для = V,несов=не прош,деепр =PR Для Длить

6/7/ Основные понятия Требования к корпусу Требования к корпусу Стандарты Разметка Типы корпусов Примеры корпусов

6/7/ Требования к корпусу Репрезентативность Репрезентативность Полнота Полнота Экономичность Экономичность Структурированность Структурированность Компьютерная поддержка Компьютерная поддержка

6/7/ Требования к корпусу: Репрезентативность – способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области.

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Размеры и процентные соотношения: Жанры Стили Периоды Авторы Хронологические границы ……………………….

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров.

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Обычно художественные тексты составляют в национальных корпусах 20-40% Обычно художественные тексты составляют в национальных корпусах 20-40%

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: с хронологической точки зрения ограничить современный язык с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса Культурно-репрезентативный корпус От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, освященный авторитетом сочинителя собрание культурно значимых текстов на данном языке В практическом преломлении культурная значимость потенциальным источником расхожих цитат текст признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами).

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании национального корпуса культурная значимость не гарантирует стандартности авторского языка. От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют авторскими особенностями Отсюда задача: стандартный, эталонный корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее гладкого и профессионального.

6/7/ Требования к корпусу: Репрезентативность Требование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы же vs. типа

6/7/ Полнота Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности Требования к корпусу: Полнота

6/7/ Корпус должен экономить усилия исследователя при изучении проблемной области.Корпус должен экономить усилия исследователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему А.Н.Баранов. Введение в прикладную лингвистику. С.119. Требования к корпусу: ?? Экономичность

6/7/ А.Н.Баранов. Введение в прикладную лингвистику. С.119. Требования к корпусу: Структуризация

6/7/ необходимы специальные программы по обработке данных необходимы специальные программы по обработке данных Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером Требования к корпусу: Компьютерная поддержка

6/7/ Сбалансированный корпус Сбалансированный корпус в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научно- популярная литература и т.д.). Пример: Брауновский корпус Фрэнсис – Кучера. 1 млн словоупотреблений. 500 текстов по 2000 словоупотреблений. в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научно- популярная литература и т.д.). Пример: Брауновский корпус Фрэнсис – Кучера. 1 млн словоупотреблений. 500 текстов по 2000 словоупотреблений. Брауновский корпус Брауновский корпус Мониторный корпус Мониторный корпус

6/7/ Основные понятия (лекция 1) Требования к корпусу Требования к корпусу Стандарты Разметка

6/7/ Требование унификации: многократное использование; много пользователей; совместимость с другими корпусами; совместимость с другими лингвопроцессорами; совместимость с общепринятыми научными теориями; совместимость с общепринятыми классификациями; возможность применения стандартных программных средств.

6/7/ Объекты стандартизации Структура формата Наполнение формата Метаданные Классификаторы Лингвистическая разметка Кодировки

6/7/ Стандарты Пример: Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti- ful, onybody may see that. ful, onybody may see that JANE EYRE 475

Пример: Пример: In passing the door of that sanctum some time after, I caught the words -- ' She ' ll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti- ful, onybody may see that. ful, onybody may see that.474 JANE EYRE 475 6/7/ Пример: Пример: In passing the door of that sanctum some time after, I caught the words -- ' She ' ll ' She ' ll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, faa''l, and varry good-natured; and i' his een she's fair beauti- ful, onybody may see that. 474 JANE EYRE 475 Стандарты

6/7/ Стандарты В этой записи имеется ряд недостатков: В этой записи имеется ряд недостатков: номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей). абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей).

6/7/ Стандарты In passing the door of that sanctum some time after, I caught the words ‐ In passing the door of that sanctum some time after, I caught the words ‐ She'll happen do better for him nor ony o' t' grand ladies. And again, If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that. She'll happen do better for him nor ony o' t' grand ladies. And again, If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.

6/7/ Стандарты разметки TEI – text encoding initiative TEI – text encoding initiative EAGLES -Expert Advisory Group on Language Engineering Standards EAGLES -Expert Advisory Group on Language Engineering Standards SGML - Standard Generalised Markup Language SGML - Standard Generalised Markup Language XML (Extensible Markup Language) - язык разметки документов XML (Extensible Markup Language) - язык разметки документов

6/7/ Другие международные проекты и стандарты стандарт CES (Corpus Encoding Standard); стандарт XCES (Corpus Encoding Standard for XML); проект ISLE (International Standards for Language Engineering); стандарт CDIF (Corpus Document Interchange Format, BNC).

6/7/ Группа стандартов TEI для корпусов (TEI P4, TEI P5) Схема описания документа: библиографическое описание текста, собственно метаописание текста и "технологическое" описание: кодировка текста, история создания электронной версии и т.п.

6/7/ Стандарт Text Encoding Initiative (TEI) формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ………

6/7/ TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи.

6/7/ Примеры стандартных тегов TEI содержит различную вступительную информацию (заголовки, титульный лист, предисловия, посвящения и т.п.), которую размещают перед основным текстом. содержит число монолитных текстов или групп текстов. содержит всю основную часть одного монолитного текста, исключая то, что относится к вводной или закрывающей частям текста. содержит различные приложения и т.п., которые располагаются после основной части текста.

6/7/ TEI отмечает абзацы написанного прозой текста. содержит раздел вводного, основного или закрывающего текста. содержит раздел первого уровня вводного, основного или закрывающего текста (это самый высокий уровень, если элемент не используется, или второй уровень, если он используется).

6/7/ Кодирование метаданных в TEI Предусмотрены следующие тэги: 1. информация о времени и месте создания текста; 2. классификация текста; 3. описание текста; 4. описание автора или участников акта коммуникации; 5. условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов.

6/7/ Классификаторы: пример тематической классификации EAGLES (1) natsciестественные науки mathematicsматематика physicsфизика chemistryхимия … appsciприкладные науки medicineмедицина engineeringтехника и технология computingвычислительная техника militaryвоенное дело marineмореплавание … socsciобщественные науки anthropologyантропология languageлингвистика, филология …

6/7/ Формальные языки разметки SGML (Standard Generalized Mark-up Language), XML (Extensible Mark-up Language)

6/7/ Пример описания на языке XML описание слова 'лошади' будет записано следующим образом: лошади лошади или lemma="лошадь" feats="NSM ">лошади, где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2)

6/7/ Разметка метатекстовая разметка метатекстовая разметкаметатекстовая разметкаметатекстовая разметка разбиение текста на фрагменты разбиение текста на фрагментыразбиение текста на фрагментыразбиение текста на фрагменты лемматизация лемматизация морфологическая разметка морфологическая разметкаморфологическая разметкаморфологическая разметка синтаксическая разметка синтаксическая разметкасинтаксическая разметкасинтаксическая разметка семантическая разметка семантическая разметкасемантическая разметкасемантическая разметка фонетическая разметка фонетическая разметкафонетическая разметкафонетическая разметка другие типы разметки: другие типы разметки: анафорическая анафорическая структура дискурса структура дискурса DRT ( ) DRT ( )

6/7/ Метаразметка Факторы: Факторы: 1) факторы, относящиеся к созданию текста автором; 1) факторы, относящиеся к созданию текста автором; 2) факторы, относящиеся к внешним признакам текста; 2) факторы, относящиеся к внешним признакам текста; 3) факторы, относящиеся к целям создания текста и его влиянию на аудиторию. 3) факторы, относящиеся к целям создания текста и его влиянию на аудиторию. 4) предметная область текста; 4) предметная область текста; 5) стилистические особенности текста. 5) стилистические особенности текста.

6/7/ Пример метаразметки: Author's name Author's name Sub-period Sub-period Date of original Date of original Date of manuscript Date of manuscript Contemporaneity of original and manuscript Contemporaneity of original and manuscript Dialect Dialect Verse or prose Verse or prose Text type Text type Language of foreign original Language of foreign original Relationship to spoken language Relationship to spoken language Sex of author Sex of author Interactive/non-interactive Interactive/non-interactive Formal/informal Formal/informal

6/7/ Например, Трифонов, "Дом на набережной": Дом на набережной Юрий Трифонов Мошков Электронная библиотека

6/7/ This example is from the Spoken English Corpus and used the C7 tagset: Perdita&NN1-NP0;,&PUN; covering&VVG; the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2;,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of lexical verb Морфологическая разметка

6/7/ EXAMPLE OF PART-OF-SPEECH TAGGING, LOB CORPUS: hospitality_NN is_BEZ an_AT excellent_JJ virtue_NN,_, but_CCNNBEZATJJNN,CC not_XNOT when_WRB the_ATI guests_NNS have_HV to_TO sleep_VBXNOTWRBATINNSHVTOVB in_IN rows_NNS in_IN the_ATI cellar_NN !_!INNNSINATINN! the_ATI lovers_NNS,_, whose_WP$ chief_JJB scene_NN was_BEDZATINNS,WP$JJBNNBEDZ cut_VBN at_IN the_ATI last_AP moment_NN,_, had_HVDVBNINATIAPNN,HVD comparatively_RB little_AP to_TO sing_VBRBAPTOVB '_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBDPP3AVBDPP$NN!VBD Rollinson_NP._.NP.

6/7/ Пример морфологической разметки Национального корпуса русского языка: Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,не прош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,не прош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART}

6/7/ Лемматизация N12:0510g - PPHS1m He he N12:0510g - PPHS1m He he N12:0510h - VVDv studied study N12:0510h - VVDv studied study N12:0510i - AT the the N12:0510i - AT the the N12:0510j - NN1c problem problem... N12:0510j - NN1c problem problem... VVDv thought think VVDv thought think N12:0520c - IO of of N12:0520c - IO of of N12:0520d - AT1 a a N12:0520d - AT1 a a N12:0520e - NNc means means N12:0520f - IIb by by N12:0520g - DDQr which which N12:0520h - PPH1 it it N12:0520i - VMd might may N12:0520j - VB0 be be N12:0520k - VVNt solved solve N12:0520m - YF +. - SUSANNE corpus :

6/7/ Синтаксическая разметка Treebanks Treebanks Parsing (S=sentence, NP=noun phrase, VP=verb phrase, PP=prepositional phrase, N=noun, V=verb, AT=article, P=preposition.)

6/7/ [S[NP Claudia_NP1 NP][VP sat_VVD [PP on_II [NP a_AT1 stool_NN1 NP] PP] VP] S] [S [NP Claudia NP] [VP sat [PP on [NP a stool NP] PP] VP] S]

6/7/ Full parsing: [S[Ncs another_DT new_JJ style_NN feature_NN Ncs] [Vzb is_BEZ Vzb] [Ns the_AT1 [NN/JJ& wine-glass_NN [JJ+ or_CC flared_JJ HH+]NN/JJ&] heel_NN,_, [Fr[Nq which_WDT Nq] [Vzp was_BEDZ shown_VBN Vzp] [Tn[Vn teamed_VBN Vn] [R up_RP R] [P with_INW [NP[JJ/JJ/NN& pointed_JJ,_, [JJ- squared_JJ JJ-],_, [NN+ and_CC chisel_NN NN+]JJ/JJ/NN&] toes_NNS Np]P]Tn]Fr]Ns]._. S] & whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular & whole coordination + subordinate conjunct, introduced - subordinate conjunct, not introduced Fr relative phrase JJ adjective phrase Ncs noun phrase, count noun singular Np noun phrase, plural Nq noun phrase, wh-word Ns noun phrase, singular P prepositional phrase R adverbial phrase S sentence singular Tn past participal phrase Vn verb phrase, past participle Vzb verb phrase, third person singular to be Vzp verb phrase, passive third person

6/7/ Skeleton Parsing [S& [P For_IF [N the_AT members_NN2 [P of_IO [N this_DD1 university_NNL1 N]P]N]P] [N this_DD1 charter_NN1 N] [V enshrines_VVZ [N a_AT1 victorious_JJ principle_NN1 N]V]S&] ;_; and_CC [S+[N the_AT fruits_NN2 [P of_IO [N that_DD1 victory_NN1 N]P]N] [V can_VM immediately_RR be_VB0 seen_VVN [P in_II [N the_AT international_JJ community_NNJ [P of_IO [N scholars_NN2 N]P] [Fr that_CST [V has_VHZ graduated_VVN here_RL today_RT V]Fr]N]P]V]S+]

6/7/ Семантическая разметка Разрешение семантической неоднозначности Разрешение семантической неоднозначности Выделение значений лексем в данном контексте Выделение значений лексем в данном контексте Разметка в соответствии с тезаурусом Роже Разметка в соответствии с тезаурусом Роже Разметка семантических ролей Разметка семантических ролей Разметка в соответсвии с выделяемыми в словаре подзначениями Разметка в соответсвии с выделяемыми в словаре подзначениями Разметка в соответствии с классами, выделяемыми в WORDNET Разметка в соответствии с классами, выделяемыми в WORDNET

6/7/ Пример семантической разметки: По тезаурусу Роже And And the the soldiers soldiers platted platted a a crown crown of of thorns thorns Low content word (and, the, a, of, on, his, they etc) Plant life in general Body and body parts Object-oriented physical activity (e.g. put) Men's clothing: outer clothing Headgear War and conflict: general

6/7/ При{при=ПРЕД} мощном{мощный=П=ср,ед,пр} сложении{сложение=С,ср,но=ед,пр}, крупной{крупный=П=жр,ед,пр} голове{голова=С,жр,но=ед,пр}, крупных{крупный=П=мн,пр} чертах{черта=С,жр,но=мн,пр [Ex="Провести черту." R="непр" Cl="форма" | Ex="Пограничная ч." R="непр" C3="характеристика" Ap="оценка:max" | Ex="Черты характера." R="непр" C3="характеристика" | Ex="Пограничная ч" R="предм" Cl="пр&м" ]} лица{лицо=С,ср,но=ед,рд} он{он=М-С,мр,ед,3 л=им}, когда{когда=СОЮЗ} сидел{сидеть=Г,нс,нп,дст=мр,ед,прш}, производил{производить=Г,нс,пе=мр,ед,дст,прш [Mo="преф" | Ex="Завод производит станки." Cl="существование" Ca="каузация существования" Mo="преф" | Ex="П. свое имя от древнего рода." Mo="преф" ]} впечатление{впечатление=С,ср,но=ед,вн [R="непр" Cl="восприятие" C4="возд" | R="непр" Do="ментальная сфера" ]} рослого{рослый=П=мр,ед,рд} человека{человек=С,мр,од=ед,рд}. Пример семантической разметки в НКРЯ

6/7/ The rock moved down the hill rolling FIGURE MOTION PATH GROUND MANNER The rock rolled down the hill FIGURE MOTION + MANNER PATH GROUND La botella entró a la cueva flotando (the bottle) (moved-in) (to) (the cave) (floating) FIGURE MOTION + PATH PATH GROUND MANNER She powdered her nose MOTION + PATH + FIGURE GROUND I shelved the books MOTION + PATH + GROUND FIGURE Пример семантической разметки:

6/7/ Фонетическая разметка A 11 ^what a_bout a cigar\ette#. / A 20 *((4 sylls))* / B 11 *I ^w\on't have one th/anks#* / A 11 ^aren't you.going to sit d/own# - / B 11 ^[/\m]# A 11 ^what a_bout a cigar\ette#. / A 20 *((4 sylls))* / B 11 *I ^w\on't have one th/anks#* / A 11 ^aren't you.going to sit d/own# - / B 11 ^[/\m]# - # end of tone group # end of tone group ^ onset ^ onset / rising nuclear tone \ falling nuclear tone /\ rise-fall nuclear tone_ level nuclear tone / rising nuclear tone \ falling nuclear tone /\ rise-fall nuclear tone_ level nuclear tone [] enclose partial words and phonetic symbols. [] enclose partial words and phonetic symbols. normal stress normal stress ! booster: higher pitch than preceding prominent syllable ! booster: higher pitch than preceding prominent syllable = booster: continuance = booster: continuance (( )) unclear (( )) unclear * * simultaneous speech * * simultaneous speech - pause of one stress unit - pause of one stress unit

6/7/ Разметка анафоры A039 1 v (1 [N Local_JJ atheists_NN2 N] 1) [V want_VV0 (2 [N the_AT (9 Charlotte_N1 9) Police_NN2 Department_NNJ N] 2) [Ti to_TO get_VV0 rid_VVN of_IO [N 3

6/7/ Другие виды разметки структура дискурса структура дискурса "apologies" e.g. sorry, excuse me "apologies" e.g. sorry, excuse me "greetings" e.g. hello "greetings" e.g. hello "hedges" e.g. kind of, sort of thing "hedges" e.g. kind of, sort of thing "politeness" e.g. please "politeness" e.g. please "responses" e.g. really, that's right "responses" e.g. really, that's right DRT ( ) DRT ( )

6/7/ Принципы разметки Leech's Maxims of Annotation Теоретическая база – максимально независимая, но не может быть таковой Тэги – мнемоничные, теоретически прозрачные По возможности однозначные Минимальный набор необходимых тэгов Тэги поддающиеся инструктажу – 2 любых человека с улицы оттэгировали одинаково Недорогие общедоступные решения

Максимы Лича Требование удаления/восстановления разметки Из-под Из-под сена, сена, на на котором котором лежал, лежал, Платон Платон Спиридоныч Спиридоныч вытянул вытянул свёрток, свёрток, протянул протянул Павлу Павлу Из-под сена, на котором лежал, Платон Спиридоныч вытянул свёрток, протянул Павлу Из-под сена, на котором лежал, Платон Спиридоныч вытянул свёрток, протянул Павлу 6/7/ Из-под сена, на котором лежал, Платон Спиридоныч вытянул свёрток, протянул Павлу