Морфологическая и синтаксическая разметка Е.Ю. Калинина МГУ, 2007-2008.

Презентация:



Advertisements
Похожие презентации
Существительное Прилагательное Местоимение Числительное Союз ЧастицаПредлог Наречие Деепричастие Глагол Причастие.
Advertisements

СОДЕРЖАНИЕ Самостоятельные части речи Самостоятельные части речи Имя существительное Имя существительное План морфологического разбора
Принципы синтаксического моделирования в английском языке Выполнил ученик 9 «В» Ветров Александр МОУ СОШ 45 г.Твери с углубленным изучением отдельных предметов.
7 класс Части речи Выполнила: Гессель Т.И.. Имя существительное Имя прилагательное Имя числительное Местоимение глагол причастие деепричастие наречие.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Лекция 5. Графематический анализ. Лингвистическая разметка. Параллельные корпусы. В.П. Захаров Санкт-Петербургский государственный университет.
Сравнительный Анализ УМК В.П. Кузовлев 6 класс и Headway. Elementary. Выполнена студентками гр 743: А. Люссан А. Румянцевой.
The Passive Voice ( страдательный залог ). The Passive Voice The Passive Voice показывает, что лицо или предмет, обозначенные подлежащим, являются объектами.
Оборот there is/ there are Theres a hole in my pocket. – В моем кармане – дырка. (звучит натуральнее чем: A hole is in my pocket.) There is и there are.
Цель. Закрепление умения выполнять морфологический разбор, систематизация знаний о грамматических признаках разных частей речи.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Глагол be в настоящем времени имеет 3 формы: am, are, is. В русском языке эти формы соответствуют форме глагола быть – есть, которая в большинстве случаев.
Повторение изученного по теме " Глагол " в 6- м классе.
The Present Perfect Tense The fundamentals of English grammar.
Знаменательные части речи 1.Имя существительное 2.Имя прилагательное 3.Имя числительное 4.Местоимение 5.Глагол 6.Причастие 7.Деепричастие 8.Наречие. 9.Категория.
Имя существительное Самостоятельная часть речи, которая обозначает предмет и отвечает на вопросы кто? что? Бывают собственными или нарицательными, одушевленными.
Тема урока: « Главные члены предложения в русском и английском языках »
Reported speech. Косвенная речь- речь, передаваемая не слово в слово, а только по содержанию, в виде дополнительных придаточных предложений. am/is – was.
МОУ СОШ 15 Оборот there is (there are) В настоящем и прошедшем временах группы Indefinite. Выполнила: Ученица 9 «б» класса Воронина Н. Проверила: Артамонова.
Английский язык учитель Шабалина Н.А.. Цели и задачи урока Обобщение пройденного материала по теме. Ознакомление с новым материалом. Первичное закрепление.
Транксрипт:

Морфологическая и синтаксическая разметка Е.Ю. Калинина МГУ,

Морфологическая разметка Синонимы: part-of-speech tagging (POS-tagging), частеречная разметка. Элементы данных морфологической разметки включают: лемму; признак части речи; признаки грамматических категорий.

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (1) Attributes "pos" of the tag Attributes "gram" of the tag С - существительное, П - прилагательное, Г - глагол в личной форме, ПРИЧАСТИЕ - причастие ; ДЕЕПРИЧАСТИЕ – деепричастие, ИНФИНИТИВ – инфинитив, МС - местоимение- существительное, МС-П - местоименное прилагательное, МС-ПРЕДК - местоимение- предикатив, ЧИСЛ - числительное (количественное), ЧИСЛ-П - порядковое числительное, мр, жр, ср - мужской, женский, средний род; од, но - одушевленность, неодушевленность; ед, мн - единственное, множественное число; им, рд, дт, вн, тв, пр, зв - падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный; 2 - второй родительный или второй предложный падежи; св, нс - совершенный, несовершенный вид; пе, нп - переходный, непереходный глагол; дст, стр - действительный, страдательный залог; нст, прш, буд - настоящее, прошедшее, будущее время;

Морфологическая разметка: граммемы (на основе системы ДИАЛИНГ) (2) Attributes "pos" of the tag Attributes "gram" of the tag Н - наречие, ПРЕДК - предикатив, ПРЕДЛ - предлог, СОЮЗ - союз, МЕЖД - междометие, ЧАСТ - частица, ВВОДН - вводное слово, дфст - слово обычно не имеет множественного числа, опч - частая опечатка или ошибка, жарг, арх, проф - жаргонизм, архаизм, профессионализм, аббр – аббревиатура, безл - безличный глагол. пвл - повелительная форма глагола; 1л, 2л, 3л - первое, второе, третье лицо; 0 - неизменяемое. кр - краткость (для прилагательных и причастий). сравн - сравнительная форма (для прилагательных). имя, фам, отч - имя, фамилия, отчество. лок, орг - локативность, организация. кач - качественное прилагательное. вопр, относ - вопросительность и относительность (для наречий).

Пример морфологической разметки (на основе системы ДИАЛИНГ) Звонили к вечерне. Торжественный гул колоколов ……………………...

Принципы разметки Описание (обоснование) схемы разметки Общепринятая система лингвистических понятий Известная для пользователя схема анализа Мотивированность введения параметров Теоретически нейтральная (традиционная) схема разметки

Проблемы морфологического анализа и морфологической разметки: омонимия (1) {\s}Я{|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=} барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред} сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=ви н,ед|сиденье=S,сред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж} горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A =твор,ед,сред|горячее=S,ед,сред,неод=твор|горячить=V,несов= непрош,ед,прич,кр,муж,страд|горячить=V,несов=непрош,мн,изъ яв,1-л} ветром{ветер=S,муж,неод=твор,ед}, бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,т вор,ед,прич,муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=} лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо =S,сред,од=им,ед|лицо=S,сред,од=вин,ед}, ощущая{ощущать=V=непрош,деепр,несов} в{в=PR=}

Проблемы морфологического анализа и морфологической разметки: омонимия (2) то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S, ед,сред,неод=им|то=S,ед,сред,неод=вин} же{же=PART=|же=CONJ=} время{время=S,сред,неод=им,ед|время=S,сред,неод=ви н,ед} не{не=PART=} истребимую{истребимый=A=вин,ед,жен} никакими{никакой=A=твор,мн} сквозняками{сквозняк=S,муж,неод=твор,мн} пыль{пыль=S,ед,жен,неод=им|пыль=S,ед,жен,неод=вин} и{и=PART=|и=INTJ=|и=CONJ=} легкий{легкий=A=им,ед,муж|легкий=A=вин,ед,муж,неод} запах{запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,е д|запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|зап ахнуть=V,сов=прош,ед,изъяв,муж} духов{духов=A=им,ед,муж|духов=A=вин,ед,муж,неод|дух =S,муж,неод=род,мн|дух=S,муж,од=род,мн|дух=S,муж,од =вин,мн|духи=S,мн,муж,неод=род} --

Проблемы морфологического анализа и морфологической разметки незнакомые слова: Махабхарата, фотосправочник, короткохоботый экзотические формы: лузях (С.Соколов), вспорхливый, творческ, почил в бозе, авторские варианты написания: итти, казалося, бодростию

Сложные лексические единицы: чему приписываем тэг? Наречия: без удержу, до отвала, с гаком Вводные слова: в сущности, между прочим Союзы: коль скоро, лишь бы, даром что Предлоги: в преддверии, вплоть до Частицы: все ж таки, как бы не так Фразеологические предикативы (?): кот наплакал; раз, два и обчелся etc.

Морфологический стандарт Русского национального корпуса Лексема, которой принадлежит словоформа (указывается «словарная запись» данной лексемы и ее принадлежность к той или иной части речи. Множество грамматических признаков данной лексемы, или словоклассифицирующие характеристики (например, род для существительного, переходность для глагола). Множество грамматических признаков данной словоформы, или словоизменительные характеристики (например, падеж для существительного, число для глагола). Информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Морфологический стандарт русского национального корпуса: исходная лексема Для всех словоформ, принадлежащих видовым парам, указываются исходные формы обоих видов (например, форма пришёл считается принадлежащей и лексеме ПРИЙТИ, и лексеме ПРИХОДИТЬ). Для -ся-форм в тех случаях, когда существуют лексемы с -ся и без -ся, указываются обе исходные формы (например, форма разрушается считается принадлежащей и лексеме РАЗРУШАТЬСЯ, и лексеме РАЗРУШАТЬ). Для прилагательных, совпадающих с причастиями (открытый), в качестве исходной дается как лексема- прилагательное (ОТКРЫТЫЙ), так и глагол (ОТКРЫТЬ).

Морфологический стандарт русского национального корпуса: части речи S существительное (яблоня, лошадь, корпус, вечность) S-PRO местоимение-существительное (она, что) A прилагательное (коричневый, таинственный, морской) A-PRO местоимение-прилагательное (который, твой) NUM числительное (четыре, десять, много) A-NUM числительное-прилагательное (один, седьмой, восьмидесятый) PRAEDIC предикатив (жаль, хорошо, пора) A-PRAEDIC местоимение-предикатив (некого, нечего) V глагол (пользоваться, обрабатывать) ADV наречие (сгоряча, очень) ADV-PRO местоименное наречие (где, вот) PR предлог (под, напротив) CONJ союз (и, чтобы) PART частица (бы, же, пусть) INTJ междометие (увы, батюшки) PARENTH вводное слово (кстати, по-моему)

Морфологический стандарт русского национального корпуса: грамматические категории Падеж: nom именительный падеж (голова, сын, степь, сани, который) gen родительный падеж (головы, сына, степи, саней, которого) acc винительный падеж (голову, сына, степь, сани, который/которого) dat дательный падеж (голове, сыну, степи, саням, которому) loc предложный падеж ([о] голове, сыне, степи, санях, котором) ins творительный падеж (головой, сыном, степью, санями, которым) gen2 второй родительный падеж (чашка чаю) acc2 второй винительный падеж (постричься в монахи; по два человека) loc2 второй предложный падеж (в лесу, на оси) voc звательная форма (Господи, Серёж, ребят)

Морфологический стандарт русского национального корпуса: грамматические категории Степень сравнения: comp сравнительная степень (глубже) comp2 форма «по+сравнительная степень» (поглубже) supr превосходная степень (глубочайший)

Морфологический стандарт русского национального корпуса: грамматические категории Залог: act действительный залог (разрушил, разрушивший) pass страдательный залог (только у причастий: разрушаемый, разрушенный) med медиальный, или средний залог (глагольные формы на -ся: разрушился и т.п.)

Морфологический стандарт русского национального корпуса: другие множественные пометы В ряде случаев допускается множественная помета части речи для союзов/частиц типа словно, для -о/-е- форм типа хорошо (предикатив/наречие/прилагательное), для субстантивированных адъективов типа всё, военный (существительное/прилагательное), для форм его, её, их (притяжательное/личное местоимение); число таких случаев по мере работы над корпусом будет уменьшаться. Ставится множественная помета в случаях, когда выбор лексемы или грамматического значения невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами исходная форма СПАЗМ/СПАЗМА, и т. п.)

Морфологический стандарт русского национального корпуса: дополнительные пометы anom («Аномальная форма») различного рода морфологические аномалии, возможные у устаревших или просторечных нелитературных форм (три дни, ляжь) distort («Искаженная форма») орфографическое и/или фонетическое искажение слова, передающее различные особенности произношения (дэвушка, товаищи, про-хо-ди, низнаю), а также сокращения (не аббревиатуры) и иные особенности записи (тов., 1-й). Кроме того, в корпусе с неснятой омонимией используется особая помета (bastard) для формы, порожденной автоматическим анализатором по аналогии: например, форма вроде Махабхарата получает несколько гипотетических разборов, в том числе от псевдолексем махабхаронок, махабхарать и т.

Морфологическая разметка BNC could've = could 've doesn't = does n't dunno = du n no wanna = wan na -- or-- wan na gimme = gim me

Морфологическая разметка BNC of course (adverb) according to (preposition) persona non grata ('naturalised' compound noun) except that (conjunction)

Морфологическая разметка BNC she is playing her best tennis for six years. [CH3.1383] she is just a star. [CH3.6940] John has built a set of bookshelves. [C9X.121] John has great courage. [CA9.1941] We did n't see anybody. [KB2.702] They do nice work.

Морфологическая разметка BNC We can go there. We could go there. We used to go there every year. The form let's is treated as one verb: Let's go!

Морфологическая разметка BNC Subjunctives and Imperatives. (Both take V-B tags) She suggested that they get married. [CBC.12107] Please be patient. [CHJ.901] Do n't just stand there watching! [ACB.3470]

Морфологическая разметка BNC Catenative or semi-auxiliary verbs such as going to, ought to, and used to + infinitive we're going to get killed. [HNN.445] you ought to let them know. [KCT.6117]

Морфологическая разметка BNC ADJECTIVE vs. ADVERB We arrived tired, but safe [CCP.530] Peter sang out loud and clear.

Морфологическая разметка BNC ADJECTIVE vs. NOUN a white screen, The screen is white. Red is my favourite colour. They painted the wall a brilliant white. two smiling children ('two children who are/were smiling') [HTT.743] new spending plans ('new plans for spending') his reading ability ('his ability in reading')

Морфологическая разметка BNC ADJECTIVE vs. VERB The effect is lasting (compare a lasting effect). The door is locked (compare the locked door.) The man was dying. [HTM.1494 *VVG-AJ0] BUT: the dying man. [FSH.606] an interest earning account a hypothesis driven approach

Синтаксическая разметка фиксация синтаксических связей приписывание синтаксическим единицам соответствующих характеристик: тип предложения синтаксическая функция член предложения и т.п.

Сложности синтаксической разметки: разнообразие синтаксических теорий и формализмов: грамматика зависимостей; грамматика непосредственно- составляющих; грамматика структурных схем; традиционные синтаксические учения о членах предложения; грамматика конструкций; лексико-фукциональная грамматика (LFG) и др.

Пример синтаксического разбора (грамматика зависимостей, система ЭТАП- 3) Long ago, in the city of Babylon, the people began to build a huge tower which seemed to reach the heavens soon.

Пример синтаксического разбора

Penn Tree Bank The Penn Treebank syntactic tagset 1. ADJP Adjective phrase 2. ADVP Adverb phrase 3. NP Noun phrase 4. PP Prepositional phrase 5. S Simple declarative clause 6. SBAR Clause introduced by subordinating conjunction or 0 (see below) 7. SBARQ Direct question introduced by wh-word or wh-phrase 8. SINV Declarative sentence with subject-aux inversion 9. SQ Subconstituent of SBARQ excluding wh-word or wh-phrase 10. VP Verb phrase 11. WHADVP Wh-adverb phrase 12. WHNP Wh-noun phrase 13. WHPP Wh-prepositional phrase 14. X Constituent of unknown or uncertain category

Penn Tree Bank Null elements 1. * ``Understood'' subject of infinitive or imperative 2. 0 Zero variant of that in subordinate clauses 3. T Trace---marks position where moved wh-constituent is interpreted 4. NIL Marks position where preposition is interpreted in pied-piping contexts

Penn Tree Bank Functional tags CLF – true clefts NOM – non NPs that function as NPs ADV – clausal and NP adverbials LGS – logical subjects in passive constructions PRD – non-VP predicates SBJ – logical subjects TPC – topicalized and fronted constituents

Дерево зависимостей: Connexor

Семантическая разметка Аргентина идет русским путем... Игорь Трунов тут же пояснил, что речь идет об одном миллионе долларов.... Неужели Соколов не понимает, что речь идет о чем-то неизмеримо большем, чем о … Кредитование реального сектораидет ни шатко ни валко.... Как подтвердил "Известиям" Эдуард Кузьмин, все идет по плану... Россия -- страна, которая идет к открытому обществу и не боится … …что, во-первых, о моей режиссуре и речи не идет, и, во- вторых, как актер я … Судьба ведет человека, но человек идет потому, что хочет, и он волен не хотеть… И вот уже ребенок идет от лужи, идет с чужим дядей, звенело в ушах и все казалось, эшелон идет, идет..... … он, убитый, все жал на акселератор, и танк идет Впрочем, речь идет не обо мне...

Таксономическая разметка НКРЯ Ничего{ничто=М-С,ср,ед=рд} общего{общий=П=ср,ед,рд, Class="соц_отн-я" | Class="охват" ]} с{с=ПРЕД} европейскими{европейский=П=мн,тв} акварелями{акварель=С,жр,но=мн,тв Class="в-во" | Class="изображение"]} Наматжиры{Наматжира*=С,фам,мр,од= ед,рд} и{и=СОЮЗ} его{его=М-П} последователей{последователь=С,мр,о д=мн,вн Class="человек"]}. (Даниил Гранин. Месяц вверх ногами)

Таксономическая разметка НКРЯ кузов класс = емкость мереологический класс = часть мереологический коррелят = транспортное средство семантическая одушевленность = неодушевленное интриганка класс = лицо пол = женский оценка = отрицательная семантическая одушевленность = одушевленное деривационный класс = nomina feminina

Таксономическая разметка, GNOME This tables

Таксономическая разметка, GNOME (allow) scholars (to link) it

Семантическая разметка: онтологии And the soldiers platted a crown of thorns and put it on his head and they put on him a purple robe

Семантическая разметка: онтологии Low content word (and, the, a, of, on, his, they etc) Plant life in general Body and body parts Object-oriented physical activity (e.g. put) Men's clothing: outer clothing Headgear War and conflict: general Colour

Семантическая разметка Penn Tree Bank Vandenberg and Rayburn were wise enough *TRACE* to leave specific operations to presidents. base=leave2; tense=infinitival; arg2=presidents; arg1=specific operations; arg0=*TRACE* -> Vandenberg and Rayburn;

Семантическая разметка Penn Tree Bank HIT (sense: strike) Arg0: hitter Arg1: thing hit Arg2: instrument, hit with HAIL (sense: pellets of ice from the sky) Labels allow to capture transitivity alternations: John (Arg0) broke the window (Arg1) and The window (Arg1) broke.

Семантическая разметка Penn Tree Bank EDGE (sense: move slightly) Arg0: causer of motion3 Arg1: thing in motion Arg2: distance moved Arg3: start point Arg4: end point Arg5: direction The publishing unit reported revenue edged up 2.6% to $263.2 million from $256.6 million.

Семантическая разметка Penn Tree Bank BUY Arg0: buyer Arg1: thing bought Arg2: seller, bought-from Arg3: price paid Arg4: benefactive, bought-for

Семантическая разметка Penn Tree Bank PURCHASE BUY SELL Arg0: buyer Arg0: buyer Arg0: seller Arg1: thing bought Arg1: thing bought Arg1: thing sold Arg2: seller Arg2: seller Arg2: buyer Arg3: price paidArg3: price paid Arg3: price paid Arg4: benefactive Arg4: benefactive Arg4: benefactive

Семантическая разметка Penn Tree Bank The company bought a wheel-loader from Dresser. Arg0: The company rel: bought Arg1: a wheel-loader Arg2-from: Dresser TV stations bought "Cosby" reruns for record prices. Arg0: TV stations rel: bought Arg1: "Cosby" reruns Arg3-for: record prices.

Семантическая разметка Penn Tree Bank LOC: location NEG: negation marker TMP: time MOD: modal verb MNR: mannerEXT: extent, numerical role DIR: direction PRP: purpose CAU: cause ADV: general- purpose modifier

Семантическая разметка Penn Tree Bank Mary called John an idiot. (LABEL) Mary called John a cab.(SUMMON) Arg0: Mary Arg0:Mary Rel: called Arg1: John (labeled) Arg2: John (benefactive) Arg3-PRD: an idiot (attr) Arg1: a cab (thing summoned)