П.Л.Гроховский, В.П.Захаров, Ю.Н.Лебедева, М.О.Смирнова, М.В.Хохлова (Санкт-Петербургский университет)

Презентация:



Advertisements
Похожие презентации
Практическая грамматика английского языка Специальность Иностранный язык.
Advertisements

Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Периодическая система История и перспективы ученица 11 класса Тимофеева Ариадна Научный руководитель учитель химии МОУ « Хормалинская сош» Иванова В.В.
Лекция 10 Периодический закон и периодическая система химических элементов.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Рождество Христово Сколько лет назад был построен Рим?
Морфологическая типология Ю.А. Ландер, НИУ ВШЭ Нижний Новгород, НИУ ВШЭ Март 2013, НИУ ВШЭ.
Plates 1s,2s, 3s, 4s, 5s, 6s, 7s, are an alpha particles. Li 3 He 2 2 Be B 5 The beginning of formation of a ring 2p, around and between plates 1s.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Multiples Michael Marchenko. Definition In mathematics, a multiple is the product of any quantity and an integer. in other words, for the quantities a.
Taking out Money from a Cash Machine Authors: Aleksey Ermolaev, Daria Zaitseva, Maria Leontyeva, Anatoly Leshchev, Form 10 pupils Teacher: V. V. Sergoushina,
Название презентации. 1. пункт первый презентации 2. пункт второй презентации 3. пункт третий презентации 4. пункт четвертый презентации 5. пункт пятый.
Формирование информационно – коммуникативной компетенции Мастер –класс Подготовила: Проскурина М.С. учитель английского языка МБОУ гимназии 34 г. Орла.
Появилась мысль, обдумай и запиши Умение излагать СВОИ мысли устно и письменно - один из необходимейших навыков любого культурного человека.
British school system!. History In the VI century church opened school for clergymen, later grammar schools were opened. In 1880 year education was compulsory.
Транксрипт:

П.Л.Гроховский, В.П.Захаров, Ю.Н.Лебедева, М.О.Смирнова, М.В.Хохлова (Санкт-Петербургский университет)

P..Grokhovskiy, V. Zakharov, Yu. Lebedeva, M. Smirnova, M. Khokhlova (Saint-Petersburg University)

Проект направлен на разработку модели корпуса памятников тибетской грамматической традиции, предположительно, cформировавшейся в VII-VIII вв. н.э. Корпус полезен: исследователям тибетской грамматической традиции, исследователям классического и современного тибетского языка, студентам и преподавателям

The project aims at developing a model of a corpus of Tibetan traditional grammar treatises which is proposed to date back to 7-8 th centuries C.E. The corpus will be useful to scholars focusing on Tibetan traditional grammar treatises and as well for linguistic research on classical and modern Tibetan language, its description and teaching.

1) два первых трактата «Сумчупа» и «Тагкичжугпа» (VII-VIII вв. н.э.), авторство которых традиционно приписывается создателю тибетской письменности Тхонми Самбхоте, 2) грамматика Смтритиджнянакирти «Врата речи, [подобные] мечу» (XI в. н.э.), 3) комментарий к двум первым трактатам Ситу Махапандиты «Прекрасный жемчужный венок – ожерелье мудреца» (XVIII в.), 4) комментарий к двум первым трактатам Нгулчу Дхармабхадры «Устные наставления по сочинению великого ученого Ситу» (XIX в.), 5) комментарий к двум первым трактатам неизвестного автора под названием «Драгоценный венок благих изречений» (XVIII/XIX вв.), 6) тибетская грамматика Келсанг Гьюрме «Ясное зерцало – введение в тибетскую грамматику» (XX в.). + ЛАТИНСКАЯ ТРАСЛИТЕРАЦИЯ + РУССКИЕ ПЕРЕВОДЫ

13rjes jug yi ge bcu po ni// ming gang gi ni mthar sbyar ba // de la ā li bzhi pa sbyar// slar bsdu bar ni shes par bya// Что касается десяти конечных графем, То к [ним], добавленным после какого-либо слова, Добавляют четвертую гласную. [Это] известно как обобщение.

dang po gnyis [pa]la dang po thun// gsum [pa] lnga [pa] bcu [pa] la kya dang sbyar// bdun pa nyid la bdun pa ste// lhag ma rnams la gya sbyar ba// de dag i sbyar [ba] brel pai sa// Первой и второй [конечным графемам] соответствует первая, К третьей, пятой и десятой добавляют kya, К самой седьмой – седьмую. К остальным добавляют gya, И [все] они, с добавлением i – это показатель связи. [1] [1] D: mthun [2] [2] D: gyi

Cоздание параллельного корпуса тибетских грамматических сочинений c русским переводом Cоздание на его основе лексической базы данных с частотными характеристиками и семантическими отношениями Creating a parallel corpus of Tibetan grammar works with Russian translation Creating a lexical database with frequency characteristics, and semantic relations

Объем корпуса составляет около 50 тысяч словоформ ( tokens). Тибетские тексты представлены в состав корпуса в двух алфавитах: тибетице в кодировке Unicode-8 и латинской транслитерации(Latin transliteration). Тибетские тексты и русские переводы в корпусе выровнены по границам предложений тибетской части, в тибетском тексте размечены границы словоформ

Разметка границ словоформ традиционная орфография маркирует лишь границы слогов, не всегда совпадающие с границами морфем) Морфологическая разметка Лемматизация (на 1-ом этапе - ручная, на 2-ом этапе - автоматизированная (TreeTagger?)) выравнивание по предложениям (вручную) Tokenization (inserting spaces between word- forms) Morphological tagging Lemmatization Alignment (sentence level)

ТегСлужебная лексемаПример 1Cjсоюзdang 2Ppпослелогdrung du 3Ergпоказатель эргатива алломорфы kyis, gyis, gis, s, yis 4Comпоказатель комитативаdang 5Datпоказатель дативаla 6Locпоказатель локативаna 7Destпоказатель дестинативаалломорфы tu, du, ra, ru, su 8Ablпоказатель аблативаlas 9Elпоказатель элативаnas 10Compпоказатель компаративаалломорфы pas, bas 11Genпоказатель генитиваалломорфы kyi, gyi, gi, i, yi 12Finконечная частица алломорфы go, ngo, do, no, bo, mo, o, ro, lo, so, t 13Topвыделительная частицаni 14Indнеопределенная частицаалломорфы cig, zhig, shig 15Emphусилительная частица алломорфы kyang, yang, 'ang 16Quant слова, выражающие количественные значения ('столько', 'именно' и т.п.) tsam, kho na, 'ba' zhig, snyed 17Plпоказатель множественного числаrnams 18Quotпоказатель прямой речиалломорфы ces, zhes

Информация о жанре Датировка Автор текста принадлежность автора к конкретной буддийской школе Title Genre information Period Author School

Автор - Цаньен Херука Религиозная школа – Кагью Датировка - XV век Жанр – биография Форма – прозаическая Уровень сложности - Upper Intermediate

prose 1 prose 6 prose 7 poetry 1 poetry 2

Sketch Engine (Lexical Computing Ltd., Adam Kilgarriff, Masaryk University in Brno, Pavel Rychly) Concordance Frequency list Thesaurus Clustering Differences

Пилотная версия электронного корпуса тибетских грамматических сочинений будет полезна исследователям памятников тибетской грамматической традиции, а также может быть использована для лингвистического исследования тибетского языка, его изучения и преподавания, т.к. в настоящее время отсутствуют общедоступные корпусы размеченных текстов на тибетском языке, тем более с переводом на русский язык. В дальнейшем предполагается снабдить корпус синтаксической разметкой, увеличить его объем, а также развить его в более масштабный корпус текстов на тибетском языке, в том числе текстов, посвященных другим традиционным наукам тибетцев: буддийской религиозной доктрине, логике, медицине, ремеслу, поэтике, синонимике, стихосложению, астрологии и драме.