Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемdownload.yandex.ru
1 Лекция 5. Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В.П. Захаров Санкт-Петербургский государственный университет
2 Лекция 5Корпусная лингвистика2 Графематический анализ (1) Разделение входного текста на элементы (слова, разделители и т.д.); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: элементов форматирования – жирность, курсивность, подчёркивание; структурных элементов текста – заголовков, абзацев, примечаний; различных элементов текста, не являющихся словами (числа, даты в цифровых форматах, буквенно-цифровые комплексы, и т.п.); имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей; и т.д.
3 Лекция 5Корпусная лингвистика3 Графематический анализ (2) Cложности: обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы.
4 Лекция 5Корпусная лингвистика4 Графематический анализ (3) Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь справочник, девочка-пионерка Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык
5 Лекция 5Корпусная лингвистика5 Графематический анализ (4) Примерный перечень элементов текста, требующих специальной обработки Названия рисунков Адрес докладчика/унив-та Сами рисунки Тезисы докладов отдельным файлом Примечания Перечисления в тексте Страницы форзаца Текст списком Зачеркивания Слова типа «рак1», «рак2», Nкластеры Титульные листы Таблицы Списки литературы Формат Цифры Римские цифры Иностр. язык в тексте Рус. яз. в иностранном тексте Адреса, ссылки, гиперссылки Формулы Сокращения, аббревиатуры Значки для формул Пример поиска Схемы
6 Лекция 5Корпусная лингвистика6 Лингвистическая разметка морфологическая разметка синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д.
7 Лекция 5Корпусная лингвистика7 Принципы разметки Описание (обоснование) схемы разметки Общепринятая система лингвистических понятий Известная для пользователя схема анализа Мотивированность введения параметров Теоретически нейтральная (традиционная) схема разметки
8 Лекция 5Корпусная лингвистика8 Морфологическая разметка Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки включают: лемму; признак части речи; признаки грамматических категорий.
9 Лекция 5Корпусная лингвистика9 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1) Attributes "pos" of the tag Attributes "gram" of the tag С - существительное, П - прилагательное, Г - глагол в личной форме, ПРИЧАСТИЕ - причастие ; ДЕЕПРИЧАСТИЕ – деепричастие, ИНФИНИТИВ – инфинитив, МС - местоимение- существительное, МС-П - местоименное прилагательное, МС-ПРЕДК - местоимение- предикатив, ЧИСЛ - числительное (количественное), ЧИСЛ-П - порядковое числительное, мр, жр, ср - мужской, женский, средний род; од, но - одушевленность, неодушевленность; ед, мн - единственное, множественное число; им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный; 2 - второй родительный или второй предложный падежи; св, нс - совершенный, несовершенный вид; пе, нп - переходный, непереходный глагол; дст, стр - действительный, страдательный залог; нст, прш, буд - настоящее, прошедшее, будущее время;
10 Лекция 5Корпусная лингвистика10 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2) Attributes "pos" of the tag Attributes "gram" of the tag Н - наречие, ПРЕДК - предикатив, ПРЕДЛ - предлог, СОЮЗ - союз, МЕЖД - междометие, ЧАСТ - частица, ВВОДН - вводное слово, дфст - слово обычно не имеет множественного числа, опч - частая опечатка или ошибка, жарг, арх, проф - жаргонизм, архаизм, профессионализм, аббр – аббревиатура, безл - безличный глагол. пвл - повелительная форма глагола; 1л, 2л, 3л - первое, второе, третье лицо; 0 - неизменяемое. кр - краткость (для прилагательных и причастий). сравн - сравнительная форма (для прилагательных). имя, фам, отч - имя, фамилия, отчество. лок, орг - локативность, организация. кач - качественное прилагательное. вопр, относ - вопросительность и относительность (для наречий).
11 Лекция 5Корпусная лингвистика11 Пример морфологической разметки (на основе системы ДИАЛИНГ) Звонили к вечерне. Торжественный гул колоколов ……………………...
12 Лекция 5Корпусная лингвистика12 Проблемы морфоанализа и морфоразметки анализ слов с дефисом: кто-нибудь, по видимому, велико светский, полу бог); нераспознавание многих имен собственных, особенно иностранных; нераспознавание прилагательных и существительных, образованных от имен собственных: архимедов, ахиллов, дантов, гулливеров, горациев, марфенькин; неразпознование аббревиатур и сокращений: г., гг., фр., д., 20 авг., англ.; сложные слова различных типов: односложный, двухэтажный, трехдневный,, четырехлетний, полуотворенный, полсотни, бледночернильный, многообещавший, благорожденный; словообразовательные дериваты, в том числе многочисленные уменьшительно-ласкательные и уменьшительно-пренебрежительные образования: ангельчик, армячишка, барельефчик, кресельца, панталончики, сертучишка, цветничок.
13 Лекция 5Корпусная лингвистика13 Синтаксическая разметка фиксация синтаксических связей приписывание синтаксическим единицам соответствующих характеристик: тип предложения синтаксическая функция член предложения и т.п.
14 Лекция 5Корпусная лингвистика14 Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов: грамматика зависимостей; грамматика непосредственно-составляющих; грамматика структурных схем; традиционные синтаксические учения о членах предложения; функциональная грамматика; семантический синтаксис; и др.
15 Лекция 5Корпусная лингвистика15 Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3) Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.
16 Лекция 5Корпусная лингвистика16 Пример синтаксического разбора
17 Лекция 5Корпусная лингвистика17 Семантическая разметка Значения слов Разрешение омонимии и синонимии Категоризация слов (разряды) Тематические классы Признаки каузативности Оценки Деривационные характеристики И т.д.
18 Лекция 5Корпусная лингвистика18 Семантическая разметка в Национальном корпусе русского языка Три группы помет: разряд имя собственное возвратное местоимение и т.д. лексико-семантические характеристики: таксономия (тематический класс лексемы) для имен существительных, прилагательных, глаголов и наречий; мереология (указание на отношения «часть целое», «элемент множество») для предметных и непредметных имен; топология (топологический статус обозначаемого объекта) для предметных имен; каузация для глаголов; служебный статус для глаголов; оценка для предметных и непредметных имен, прилагательных и наречий.
19 Лекция 5Корпусная лингвистика19 Семантическая разметка в Национальном корпусе русского языка (2) деривационные характеристики Собственно лексико-семантические пометы сгруппированы по следующим полям: Словообразовательные характеристики включают несколько типов: морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»); разряд производящего слова (например, отглагольное существительное или отадъективное наречие); лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера); морфологический тип словообразования (субстантивация, сложное слово). Более подробно см. ruscorpora.ru Семантика в корпусе
20 Лекция 5Корпусная лингвистика20 Пользователи параллельных корпусов: 1) переводчики-практики; 2) лексикографы; 3) разработчики систем машинного перевода и лексиконов к ним; 4) разработчиков систем переводческой памяти (типа Trados Workbench и Star Transit); 5) лингвисты, в т.ч. компаративисты, лексикологи, переводоведы, а также ипользуются литературоведами, социологами и культурологами как незаменимый источник эмпирической информации; 6) преподаватели и студенты – источник образцов перевода и языковых примеров.
21 Лекция 5Корпусная лингвистика21 Пример русско-словацкого параллельного корпуса 4229 Пера, правда, не было.Pravda, pero na ňom chýbalo " - и сам, правда сделав над собою очень большое усилие, уставился в ответ в глаза человеку. A veru som voči Kňaževičovi pocítil akúsi neurčitú mrzutosť Не правда ли ?Je to správne ? Я, правда, не зная этого баритона, могу сказать, что лучше всех подносил букет сам Иван Васильевич. Ja som toho barytonistu, pravdaže, nepoznal, ale môžem povedať, že najlepšie podával kyticu sám Ivan Vasilievič " Бог с ней, - размышляла Джесси, - она правда несчастна до содрогания, потому что с такой страстью погрузилась в свое уродство, хотя я к ней привыкла и ничего особенного не нахожу. Prikázala len, aby jej oznámili, keď si sestra sadne do auta. Boh ju sprevádzaj, " rozmýšľala Jessie. Je naozaj strašne nešťastná, lebo sa náramne pohrúžila do svojej škaredosti, hoci ja som si na ňu navykla a nič zvláštne na nej nevidím.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.