Анна Недолужко Карлов Университет, Прага Кореферентные отношения в тексте. Сравнительный анализ размеченных данных.

Презентация:



Advertisements
Похожие презентации

Advertisements

Маршрутный лист «Числа до 100» ? ? ?

Типовые расчёты Растворы
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Тренировочное тестирование-2008 Ответы к заданиям КИМ Часть I.
ЗРИТЕЛЬНЫЕ ИЛЛЮЗИИ ОПТИЧЕСКИЕ ОБМАНЫ 1. Зрительная иллюзия – не соответствующее действительности представление видимого явления или предмета из-за особенностей.
Свойства функций Область определения, множество значений, чётность, нечётность, возрастание, убывание.
Алгоритм 1 ПОНЯТИЕ АЛГОРИТМА ИСПОЛНИТЕЛИ АЛГОРИТМА Урок 1 2.
«Весна» Презентация для детей Выполнила: воспитатель мл.гр. Протасова О.Г. МКДОУ-детский сад «Лужок» 2014г. 1.
«Наш класс в процентах» Выполнила ученица 6 «Г» класса Бойко Виктория.
Учитель : Шарова Светлана Геннадьевна, МБОУ гимназия, г. Урюпинск, Волгоградская область УЧИМСЯ РЕШАТЬ ЗАДАЧИ С ПАРАМЕТРАМИ. ПОДГОТОВКА К ЕГЭ. ЗАДАНИЕ.
О СИТУАЦИИ НА РЫНКЕ ТРУДА И РЕАЛИЗАЦИИ РЕГИОНАЛЬНЫХ ПРОГРАММ ПО СНИЖЕНИЮ НАПРЯЖЕННОСТИ НА РЫНКЕ ТРУДА СУБЪЕКТОВ СЕВЕРО-КАВКАЗСКОГО ФЕДЕРАЛЬНОГО ОКРУГА.
Департамент экономического развития Ханты-Мансийского автономного округа - Югры 1.
ИД «Первое сентября». Журнал «Физика» 2/ Роза ветров 9 ИД «Первое сентября». Журнал «Физика» 2/2014.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Материалы совета кураторов 19 октября 2011 года. Критерии сложности дисциплин по семестрам Дисциплина является сложной, если в группе более 50% задолжников.
Материалы совета кураторов 21 сентября 2011 года.

Транксрипт:

Анна Недолужко Карлов Университет, Прага Кореферентные отношения в тексте. Сравнительный анализ размеченных данных

РЕФЕРЕНЦИЯ - КОРЕФЕРЕНЦИЯ Лена спросила папу, где он был.

ЧТО МЫ РАЗМЕЧАЕМ Прономинальная и именная кореференция: Лена спросила папу, где он был. Папа промолчал. Грамматическая кореференция: человек, который пьет Ассоциативная анафора (bridging) Лена вошла в дом. С потолка капала вода.

ТИПОЛОГИЯ ПРОНОМИНАЛЬНОЙ И ИМЕННОЙ КОРЕФЕРЕНЦИИ отношения между конкретнореферентными и родовыми ИГ тип 0 (конкретнореферентные ИГ) напр.: Елена она девушка Ø дочь тип GEN (родовые ИГ) напр. Женщины часто боятся, что их обманут. […] На самом деле женщины просто не понимают своего счастья. + почти все абстрактные имена

ТИПОЛОГИЯ ОТНОШЕНИЙ- BRIDGING часть - целое напр.: Бавария Германия объект – его функция/позиция напр.: школа учитель эксплицитная анафора без кореференции напр.: учителя такие же учителя остальное напр.: Германия – немец, дед – внук, спор – спорщик и т.д. множество – подмножество/элемент множества напр.: студенты – три студента отношение дискурсивного контраста напр.: Люди не жуют, жуют только коровы.

КТО? ГДЕ? КОГДА? КТО : 2 разметчика-лингвиста ГДЕ : Институт формальной и прикладной лингвистики, Карлов Университет, Прага НАЧАЛО: январь 2009 ПЛАНИРУЕТСЯ ДО конца 2010.

КОЛИЧЕСТВЕННЫЙ АНАЛИЗ РАЗМЕЧЕНЫХ ДАННЫХ кол-во размеченных файлов1580 кол-во предложений23891 кол-во слов кол-во узлов глубинно- синтаксического уровня кол-во новых кореферентных связей (именная текстовая кореференция и bridging) кол-во исходных кореферентных связей (прономинальная и грамматическая кореференция) кол-во всех кореферентных связей (грамматическая + текстовая + bridging) узлы ГСУ связанные кореф.17.00% всего размечено 50.00% PDT

СООТНОШЕНИЕ ТИПОВ КОРЕФЕРЕНТНЫХ ОТНОШЕНИЙ текстовая кореференция, тип 0 typ 0 текстовая кореференция, тип GEN typ NR bridging, тип SUBSET bridging, тип PART bridging, тип FUNCT bridging, тип CONTRAST CONTRAST bridging, тип ANAF bridging, тип REST

ИЗМЕРЕНИЯ СООТВЕТСТВИЙ МЕЖДУ РАЗМЕТЧИКАМИ кол-во файлов кол-во предложений

СООТВЕТСТВИЕ МЕЖДУ РАЗМЕТЧИКАМИ – ТЕКСТОВАЯ КОРЕФЕРЕНЦИЯ (F-мера)

СООТВЕТСТВИЕ МЕЖДУ РАЗМЕТЧИКАМИ – BRIDGING (F-мера)

СООТВЕТСТВИЕ ПО ТИПАМ СВЯЗЕЙ – ТЕКСТОВАЯ КОРЕФЕРЕНЦИЯ

СООТВЕТСТВИЕ ПО ТИПАМ СВЯЗЕЙ – BRIDGIGNG

СООТВЕТСТВИЕ МЕЖДУ РАЗМЕТЧИКАМИ зависит от уровня сложности текста и его длины

ПРИМЕР ТЕКСТА СО 100%-м СООТВЕТСТВИЕМ (1) ZLODĚJ SE VRÁTIL. (2) Policejní hlídka vyrušila v neděli muže, který se vloupal do restaurace Kukačka v obci Horní Životice. (3) Podařilo se mu zmizet, přestože policisté použili varovného výstřelu a vypustili služebního psa. (4) Ještě téže noci se zloděj na místo činu vrátil. (5) S policisty se tam Ø setkal podruhé. (6) Tentokrát ho Ø zadrželi. (7) Jedná se o několikrát trestaného M. K. z Ostravy. (1) ВОР ВЕРНУЛСЯ. (2) В воскресенье вечером полиция задержала мужчину, который вломился в ресторан «Кукушка» в деревне Горни Животице. (3) Ему удалось скрыться, несмотря на то, что полиция использовала предупредительный выстрел и выпустила собак. (4) Но в эту же ночь вор вернулся на место преступления. (5) Там он встретился с полицией во второй раз. (6) На этот раз он был задержан Ø. (7) Речь идет о неоднократно судимом М.К. из г. Остравы.

ПРИМЕР ОЧЕНЬ СЛОЖНОГО ТЕКСТА (11) Ваша книга описывает различные проблемы – от неизлечимых болезней ребенка д о легких дисфункций и влияния развода родителей на психику ребенка. (12) Из всех описанных проблем конкретную семью может интересовать максимум пять, в худшем случае десять глав. (13) З.М.: Изначально книга была предназначена для медицинских работников, прежде всего для врачей, которые находятся в непосредственном контакте с проблемными семьями. (14) Однако выяснилось, что эта тема интересна и для педагогов и воспитателей. (15) Ведь они постоянно находятся в контакте с проблемными и истязаемыми детьми. (16) А когда книга была написана, выяснилась, что она небесполезна и для родителей. (17) Естественно, не любая глава касается любого родителя. (18) З.Д: Если бы одной семьи касались сразу 10 глав нашей книги, это была бы невероятно несчастная семья. (19) Хватит и одной, но обычно их бывает больше. (20) Вот, например, разводы – тридцать тысяч в год по стране, то есть почти тридцати тысяч детей это каким-то образом касается. (21) В этой книге описывается, как дети переносят развод, как они на него реагируют, и как должны вести себя родители, чтобы их дети меньше страдали. (22) Или, например, легкая мозговая дисфункция, которой по результатам нашего исследования страдает около пяти процентов детей. (23) Это заболевания трудно распозна ю тся. (24) Ребенок малоподвижен, беспокоен, рассеян, но при этом часто очень умен. (25) Родители считают его лентяем, ругают за плохие оценки, тем самым еще более осложняя его отношение к учебе. (26)И об этом родители должны знать. (27) А также педагоги, и в книге содержатся инструкции, как вести себя в подобных ситуациях. (28)З.М.: Мы рассматриваем также проблемы, о которых часто забывают. (29) Например, смерть ребенка или рождение больного ребенка. (30) Причем речь не только о родителях, но и о том, как вести себя окружающим. (31) Или смерть в семье (напр. бабушки), и влияние этого события на ребенка.

ТИПЫ НЕСООТВЕТСТВИЙ МЕЖДУ РАЗМЕТЧИКАМИ Разметчик А отметил отношение кореференции (или ассоциативной анафоры) там, где разметчик Б его не увидел Разметчик А отметил отношение кореференции там, где разметчик Б отметил отношение ассоциативной анафоры Различный выбор первого или второго члена отношения

ПРИМЕР 1: разметчик A обозначил связь там, где разметчик B ее не увидел чеш. Na této stránce vám budeme v průběhu 2. vlny kuponové privatizace představovat jednotlivé obory národního hospodářství. Bylo to v době, kdy se nebývale zvýšil zájem zahraničních turistů a podnikatelů o návštěvu České republiky. рус. На этом сайте будут представлены отдельные отрасли национальной экономики. […] Это было в тот период, когда небывало возрос интерес иностранных туристов и предпринимателей к посещению Чешской Республики.

ПРИМЕР 2: разметчик A отметил кореференци, размечик В - bridging чеш. I přes klesající inflaci ve světě, a tedy nižší potřebu peněz v oběhu, je tisk bankovek a výroba bankovkového papíru jedním z nejlukrativnějších odvětví. […] … Rozšíření bankovních automatů vyžaduje neustálý přísun nepoškozených bankovek. рус. Несмотря на снижение инфляции в мире, и соответственно меньшую потребность в оборотных денежных средствах, печать банкнот и производство специальной бумаги является одной из наиболее доходных отраслей. […] … В связи с расширением сети банкоматов требуется постоянное пополнение неповрежденных банкнот.

ПРИМЕР 3: различный выбор антецедента чеш. Tiskárny bankovek mají i nové zákazníky, především v postkomunistických zemích východní Evropy a republikách bývalého SSSR. Bankovky v těchto zemích jsou náchylné na padělání a mají zastaralý design. Kanadská firma CBNC bude tisknout nové bankovky pro Tádžikistán русрус. У монетных дворов есть и другие клиенты, прежде всего в посткоммунистических государствах Восточной Европы и в республиках бывшего СССР. Банкноты в этих странах легко подделать, и у них устаревший дизайн. Канадская фирма CBNC будет печатать новые банкноты для Таджикистана.

ПРИМЕР 4: РАЗЛИЧИЯ В ГЛУБИНЕ ИНТЕРПРЕТАЦИИ чеш. M é ně výnosný cestovn í ruch. Hotelových kapacit je mnohem v í c než současn á popt á vka. [...] Bylo to v době, kdy se nebývale zvý š il z á jem zahraničn í ch turistů a podnikatelů o n á v š těvu Česk é republiky, předev ší m Prahy. рус. Менее доходным является туризм. Количество мест в гостиницах существенно превышает современный спрос. [ … ] Это было в тот период, когда небывало возрос интерес иностранных туристов и предпринимателей к посещению Чешской Республики. ТУРИЗМ = {МЕСТА В ГОСТИНИЦАХ, ИНОСТРАННЫЕ ТУРИСТЫ,...}

ТИПОЛОГИЯ НЕСООТВЕТСТВИЙ МЕЖДУ РАЗМЕТЧИКАМИ

вероятные причины несоответствий между разметчиками

причины несоответствий классифицированные по типам тип несоответствиявероятная причина % установил связь – не увидел связи неоднозначность32 ошибка разметчика 31 глубина34 техн. ошибка2 ошибка правил1 bridging vs. кореференция неоднозначность100 различный выбор антецедента/пост цедента неоднозначность71 ошибка разметчика 7 не знаю7 ошибка правил15

СПАСИБО ЗА ВНИМАНИЕ