4-8 июня 2008 г.Диалог 20081 Синтаксически аннотированный корпус чешского языка Аня Недолужко, Ян Гаич и кол.

Презентация:



Advertisements
Похожие презентации
Лингвистический анализ текстов публицистического стиля.
Advertisements

Текст. Признаки текста. Анализ текста. Признаки текста: Смысловая цельность (единая тема) Грамматическая связь предложений.
Анна Недолужко Карлов Университет, Прага Кореферентные отношения в тексте. Сравнительный анализ размеченных данных.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
Частные методы, входящие в контекстный анализ. Апресян,Ю.Д. Дистрибутивный анализ // Лингвистический энциклопедический словарь. - М., 1990: 137 – 138.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Язык и речь Понятие модели при описании лингвистических фактов. Структурность языка. Соотношение единиц плана выражения и плана содержания. Уровни и единицы.
АНАЛИЗ МНОГОЗНАЧНОСТЕЙ В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТАХ Кучуганов Валерий Никанорович, доктор техн. наук, профессор ГОУ ВПО "Ижевский государственный технический.
RussNet как компьютерный тезаурус нового типа И.В.Азарова Санкт-Петербургский государственный университет Филологический факультет Кафедра математической.
© Козлова Валентина Алексеевна, ПРИПИТ, г. Пермь, Изменят ли социальные сервисы мир? Тема для обсуждения в блоге Yahoo в г.г.
( Из заданий части В материалов ЕГЭ ) 2009 год. Морфологические 1. союзы, союзные слова, частицы 2. Местоимения ( личные, указательные ) 3. Наречия 4.
Визуализация дождя в TimeShift Роман Лебедев KRI Saber Interactive.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Исследование алгоритмов сопровождения компьютерных моделей сред сложной структуры Докладчик: Сергиенко Екатерина Юрьевна магистрант каф. ИПМОАП БГУ Руководитель.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Радченко Г.И., Соколинский Л.Б., Шамакина А.В. Южно-Уральский государственный университет Разработка проблемно-ориентированных грид-оболочек для пакетов.
Подмножество Домашнее задание: §3.2 – ; 3.12(в,г); 3.13(в,г); 3.14(в,г) 1.
ноябрь, Результаты опроса пожилых людей Московская выборка.
ПРИЗНАКИ ТЕКСТА ПРИЗНАКИ ТЕКСТА Хоть муза моя всем сплошь имать досаждати, досаждати, Богат, нищ, весел, скорбен – буду стихи ткати. А. Кантемир А. Кантемир.
Транксрипт:

4-8 июня 2008 г.Диалог Синтаксически аннотированный корпус чешского языка Аня Недолужко, Ян Гаич и кол.

4-8 июня 2008 г.Диалог Синтаксически аннотированный корпус чешского языка Prague Dependency Treebank (PDT) тексты на чешском языке морфологический уровень: 2 млн. слов поверхностно-синтаксический уровень: 1.5 млн. слов глубинно-синтаксический уровень: 0.8 млн. слов

4-8 июня 2008 г.Диалог (Он) пошёл бы влес. Byl by šel dolesa.

4-8 июня 2008 г.Диалог Морфологический уровень атрибуты : атрибут lemma атрибут tag – 15 позиций, напр. NNIS2-----A---- и др. (Он) шёл бы влес.

4-8 июня 2008 г.Диалог Поверхностно- синтаксический уровень атрибуты (6): id ord afun is_member is_parenthesis_root m.rf

4-8 июня 2008 г.Диалог Глубинно- синтаксический уровень атрибуты (39) functor ( ACT, PAT, ADDR, PRED, DENOM, PAR, СОNJ, LOC, DIR1, DIR2, TWHEN, TTILL и др. ) t_lemma gram/sempos, gram/verbmod (Он) шёл бы влес.

4-8 июня 2008 г.Диалог Словарь моделей управления VALLEX cz. rozumět = ru. понимать

4-8 июня 2008 г.Диалог Актуальное членение атрибуты: tfa (t, c, f) deepord ( глубинный порядок узлов, основанный на функциональной перспективе предложения) Knihy odnesl a noviny přinesl. - (Он) книги унес, а журналы принес.

4-8 июня 2008 г.Диалог Кореференция грамматическая (coref_gram.rf) кореференция возвратных и относительных местоимений текстовая (coref_text.rf ) PersPron и PossPron 3-го лица, DemPron этот в субст.функции, эллипсис особые случаи (coref_special – exoph, segm )

4-8 июня 2008 г.Диалог Расширенная аннотация кореференции (текстовая корефенция) 0 (повтор NP антецедента, пары Pron – NP, напр. дом – (этот) дом, он – Петя и др.) SYN (повтор – синоним антецедента, напр. предприятие - завод) ER (повтор – гипероним антецедента, напр. Петя – этот ребенок) NR (анафорическое отношение нереферентных NP)

4-8 июня 2008 г.Диалог Расширенная аннотация кореференции (bridging anaphora) PART (отношение часть–целое, напр. дверь - ручка) SET (отношение множество-подмножество, элемент множества, напр. мушкетёры - Атос) FUNCT (отношение функциональной принадлежности, напр. школа - учитель) CONTRAST (отношение семантического противопоставления, напр. взрослый - ребенок) REST - другое

4-8 июня 2008 г.Диалог Другие проекты Prague Arabic Dependency Treebank, Prague Czech-English Dependency Treebank,

4-8 июня 2008 г.Диалог Планируется… аннотация разговорных текстов, детализация имеющейся аннотации, аннотация типологически отличных языков, аннотация параллельных чешских и английских текстов разработка нового уровня аннотации