Лекция 5. Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Существительное Прилагательное Местоимение Числительное Союз ЧастицаПредлог Наречие Деепричастие Глагол Причастие.
Advertisements

СОДЕРЖАНИЕ Самостоятельные части речи Самостоятельные части речи Имя существительное Имя существительное План морфологического разбора
Знаменательные части речи 1.Имя существительное 2.Имя прилагательное 3.Имя числительное 4.Местоимение 5.Глагол 6.Причастие 7.Деепричастие 8.Наречие. 9.Категория.
Цель. Закрепление умения выполнять морфологический разбор, систематизация знаний о грамматических признаках разных частей речи.
7 класс Части речи Выполнила: Гессель Т.И.. Имя существительное Имя прилагательное Имя числительное Местоимение глагол причастие деепричастие наречие.
ГБОУ «Адыгейская республиканская гимназия» Презентацию подготовила учитель русского языка и литературы Куадже Ася Шумафовна г. Майкоп, 2013.
Лингвистика или языкознание – наука о языке (от греч. «лингва» язык)
Имя существительное Самостоятельная часть речи, которая обозначает предмет и отвечает на вопросы кто? что? Бывают собственными или нарицательными, одушевленными.
Части речи Алматаев К. АД-21. Введение Часть речи категория слов языка, определяемая морфологическими и синтакси ческими признаками. В языках мира прежде.
Деепричастие – самостоятельная часть речи Выполнила группа 1.
Работу выполнила учитель русского языка и литературы Сафронова Галина Александровна Применение ИКТ на уроках русского языка.
Что изучает этот раздел науки о языке? Что изучает этот раздел науки о языке? На какие группы делятся все части речи? На какие группы делятся все части.
Страна Лингвиния Имя Прилагательно е Звукоподражани е Имя Числительно е Междометие Союз Частица Предло г Причастие Глагол Деепричастие Слово состояние.
Повторение изученного по теме " Глагол " в 6- м классе.
1.Ознакомить учащихся с грамматическими признаками причастия. 2.Формирование умения различать причастия и прилагательные. 3. Повторить грамматические.
Служебные части речи. Проект выполнил ученик Проект выполнил ученик 7 «а» класса Бережной С. 7 «а» класса Бережной С.
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
О н А м Е с т о и м е н и е Г о н а с т о л ь к О т Н о с и т е л Ь н о м у К а з а т е л ь н ы м и.
К признакам глагола относятся: вид ( совершенный и несовершенный) возвратность время (настоящее и прошедшее) залог (действительный и страдательный) К.
Лекция 1 «Общая характеристика строя современного английского языка в сравнении с русским языком» Григорьева М.Б.
Транксрипт:

Лекция 5. Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В.П. Захаров Санкт-Петербургский государственный университет

Лекция 5Корпусная лингвистика2 Графематический анализ (1) Разделение входного текста на элементы (слова, разделители и т.д.); удаление нетекстовых элементов; выделение и оформление нестандартных (нелексических) элементов, например: элементов форматирования – жирность, курсивность, подчёркивание; структурных элементов текста – заголовков, абзацев, примечаний; различных элементов текста, не являющихся словами (числа, даты в цифровых форматах, буквенно-цифровые комплексы, и т.п.); имен (имя, отчество), написанных инициалами; иностранных лексем, записанных латиницей; и т.д.

Лекция 5Корпусная лингвистика3 Графематический анализ (2) Cложности: обработка дефиса и пробела; выделение составных предлогов, устойчивых оборотов, аналитических форм и др.; иноязычные фрагменты; нетекстовые элементы.

Лекция 5Корпусная лингвистика4 Графематический анализ (3) Межсловный дефис: объединительная функция (буква)? кто-то, где-нибудь, давным-давно, бакш-таг, брейд-вымпел, генерал-аншеф или разделительная функция (знак препинания)? старик-художник, словарь справочник, девочка-пионерка Пробел: объединительная функция (буква)? сто двадцать пять или разделительная функция? русский язык

Лекция 5Корпусная лингвистика5 Графематический анализ (4) Примерный перечень элементов текста, требующих специальной обработки Названия рисунков Адрес докладчика/унив-та Сами рисунки Тезисы докладов отдельным файлом Примечания Перечисления в тексте Страницы форзаца Текст списком Зачеркивания Слова типа «рак1», «рак2», Nкластеры Титульные листы Таблицы Списки литературы Формат Цифры Римские цифры Иностр. язык в тексте Рус. яз. в иностранном тексте Адреса, ссылки, гиперссылки Формулы Сокращения, аббревиатуры Значки для формул Пример поиска Схемы

Лекция 5Корпусная лингвистика6 Лингвистическая разметка морфологическая разметка синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д.

Лекция 5Корпусная лингвистика7 Принципы разметки Описание (обоснование) схемы разметки Общепринятая система лингвистических понятий Известная для пользователя схема анализа Мотивированность введения параметров Теоретически нейтральная (традиционная) схема разметки

Лекция 5Корпусная лингвистика8 Морфологическая разметка Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки включают: лемму; признак части речи; признаки грамматических категорий.

Лекция 5Корпусная лингвистика9 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1) Attributes "pos" of the tag Attributes "gram" of the tag С - существительное, П - прилагательное, Г - глагол в личной форме, ПРИЧАСТИЕ - причастие ; ДЕЕПРИЧАСТИЕ – деепричастие, ИНФИНИТИВ – инфинитив, МС - местоимение- существительное, МС-П - местоименное прилагательное, МС-ПРЕДК - местоимение- предикатив, ЧИСЛ - числительное (количественное), ЧИСЛ-П - порядковое числительное, мр, жр, ср - мужской, женский, средний род; од, но - одушевленность, неодушевленность; ед, мн - единственное, множественное число; им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный; 2 - второй родительный или второй предложный падежи; св, нс - совершенный, несовершенный вид; пе, нп - переходный, непереходный глагол; дст, стр - действительный, страдательный залог; нст, прш, буд - настоящее, прошедшее, будущее время;

Лекция 5Корпусная лингвистика10 Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2) Attributes "pos" of the tag Attributes "gram" of the tag Н - наречие, ПРЕДК - предикатив, ПРЕДЛ - предлог, СОЮЗ - союз, МЕЖД - междометие, ЧАСТ - частица, ВВОДН - вводное слово, дфст - слово обычно не имеет множественного числа, опч - частая опечатка или ошибка, жарг, арх, проф - жаргонизм, архаизм, профессионализм, аббр – аббревиатура, безл - безличный глагол. пвл - повелительная форма глагола; 1л, 2л, 3л - первое, второе, третье лицо; 0 - неизменяемое. кр - краткость (для прилагательных и причастий). сравн - сравнительная форма (для прилагательных). имя, фам, отч - имя, фамилия, отчество. лок, орг - локативность, организация. кач - качественное прилагательное. вопр, относ - вопросительность и относительность (для наречий).

Лекция 5Корпусная лингвистика11 Пример морфологической разметки (на основе системы ДИАЛИНГ) Звонили к вечерне. Торжественный гул колоколов ……………………...

Лекция 5Корпусная лингвистика12 Проблемы морфоанализа и морфоразметки анализ слов с дефисом: кто-нибудь, по видимому, велико светский, полу бог); нераспознавание многих имен собственных, особенно иностранных; нераспознавание прилагательных и существительных, образованных от имен собственных: архимедов, ахиллов, дантов, гулливеров, горациев, марфенькин; неразпознование аббревиатур и сокращений: г., гг., фр., д., 20 авг., англ.; сложные слова различных типов: односложный, двухэтажный, трехдневный,, четырехлетний, полуотворенный, полсотни, бледночернильный, многообещавший, благорожденный; словообразовательные дериваты, в том числе многочисленные уменьшительно-ласкательные и уменьшительно-пренебрежительные образования: ангельчик, армячишка, барельефчик, кресельца, панталончики, сертучишка, цветничок.

Лекция 5Корпусная лингвистика13 Синтаксическая разметка фиксация синтаксических связей приписывание синтаксическим единицам соответствующих характеристик: тип предложения синтаксическая функция член предложения и т.п.

Лекция 5Корпусная лингвистика14 Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов: грамматика зависимостей; грамматика непосредственно-составляющих; грамматика структурных схем; традиционные синтаксические учения о членах предложения; функциональная грамматика; семантический синтаксис; и др.

Лекция 5Корпусная лингвистика15 Пример синтаксического разбора (грамматика зависимостей, система ЭТАП-3) Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Лекция 5Корпусная лингвистика16 Пример синтаксического разбора

Лекция 5Корпусная лингвистика17 Семантическая разметка Значения слов Разрешение омонимии и синонимии Категоризация слов (разряды) Тематические классы Признаки каузативности Оценки Деривационные характеристики И т.д.

Лекция 5Корпусная лингвистика18 Семантическая разметка в Национальном корпусе русского языка Три группы помет: разряд имя собственное возвратное местоимение и т.д. лексико-семантические характеристики: таксономия (тематический класс лексемы) для имен существительных, прилагательных, глаголов и наречий; мереология (указание на отношения «часть целое», «элемент множество») для предметных и непредметных имен; топология (топологический статус обозначаемого объекта) для предметных имен; каузация для глаголов; служебный статус для глаголов; оценка для предметных и непредметных имен, прилагательных и наречий.

Лекция 5Корпусная лингвистика19 Семантическая разметка в Национальном корпусе русского языка (2) деривационные характеристики Собственно лексико-семантические пометы сгруппированы по следующим полям: Словообразовательные характеристики включают несколько типов: морфо-семантические словообразовательные признаки (например, «диминутив», «каритив», «семельфактив»); разряд производящего слова (например, отглагольное существительное или отадъективное наречие); лексико-семантический (таксономический) тип производящего слова (например, наречие, образованное от прилагательного размера); морфологический тип словообразования (субстантивация, сложное слово). Более подробно см. ruscorpora.ru Семантика в корпусе

Лекция 5Корпусная лингвистика20 Пользователи параллельных корпусов: 1) переводчики-практики; 2) лексикографы; 3) разработчики систем машинного перевода и лексиконов к ним; 4) разработчиков систем переводческой памяти (типа Trados Workbench и Star Transit); 5) лингвисты, в т.ч. компаративисты, лексикологи, переводоведы, а также ипользуются литературоведами, социологами и культурологами как незаменимый источник эмпирической информации; 6) преподаватели и студенты – источник образцов перевода и языковых примеров.

Лекция 5Корпусная лингвистика21 Пример русско-словацкого параллельного корпуса 4229 Пера, правда, не было.Pravda, pero na ňom chýbalo " - и сам, правда сделав над собою очень большое усилие, уставился в ответ в глаза человеку. A veru som voči Kňaževičovi pocítil akúsi neurčitú mrzutosť Не правда ли ?Je to správne ? Я, правда, не зная этого баритона, могу сказать, что лучше всех подносил букет сам Иван Васильевич. Ja som toho barytonistu, pravdaže, nepoznal, ale môžem povedať, že najlepšie podával kyticu sám Ivan Vasilievič " Бог с ней, - размышляла Джесси, - она правда несчастна до содрогания, потому что с такой страстью погрузилась в свое уродство, хотя я к ней привыкла и ничего особенного не нахожу. Prikázala len, aby jej oznámili, keď si sestra sadne do auta. Boh ju sprevádzaj, " rozmýšľala Jessie. Je naozaj strašne nešťastná, lebo sa náramne pohrúžila do svojej škaredosti, hoci ja som si na ňu navykla a nič zvláštne na nej nevidím.