Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемСтанислав Тептяев
2 Анатолий Владимирович Венцов, Юлия Олеговна Нигматулина, Ольга Васильевна Раева, Елена Игоревна Риехакайнен, Наталия Арсеньевна Слепокурова (СПбГУ) КОРПУС РУССКИХ СПОНТАННЫХ ТЕКСТОВ: СТРУКТУРА И ЕДИНИЦЫ
3 Цель создания корпуса изучение особенностей сигнала, с которым слу шающий сталкивается при восприятии речи в естественных условиях разработка возможных алгоритмов преобразования непрерывного речевого акустического сигнала в линейную последовательность лексических единиц ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ ВОСПРИЯТИЯ РЕЧИ
4 Виды аннотирования: - орфографическая расшифровка; - акустико-фонетическая транскрипция
5 Общая информация -расшифровки теле- и радиопередач; -орфографическая расшифровка: 224 минуты звучания; -Орфографическая расшифровка + акустико- фонетическая транскрипция: 90 минут звучания.
6 Принципы транскрибирования Гласные Символы (латиница) Между твердыми После или между мягкого(ими) Перед мягким /a/a&a" /е/eEe" /i/iii /ı//ı/Q-Q /u/uYu" /ə/***" Излишне долго произнесенные гласные :: Ударность гласного«+» в постпозиции
7 Принципы транскрибирования Согласные Символы (латиница) Глухие Звонкие и озвонченные /ʒ//ʒ/-Z /ʦ//ʦ/cD /x/xh /ʨ//ʨ/CG /ʃ//ʃ/S- /ɕ//ɕ/$Z' Мягкость согласных '
8 Принципы транскрибирования Условное обозначение / маркер Описание (нрзб)неразборчиво произнесенное слово или фраза (ансмбл)одновременная речь нескольких дикторов pauseглухая пауза inhвдох sighвздох (gst)гортанная смычка или участки ларингализации (pXX)краткая пауза (ХХ -длительность в мс)
9 Принципы транскрибирования Пример: pause 0,202 по [po+] 0,238 inh 0, 493 а-а причинам н-н-ну таким вот [ao pr'iCi+n*m n::u te"k'i+m v*t] 1,712 небесным, наверное, [n'ib'E+sn*m na"v'Erne::+] 1,214
10 Доступ к Корпусу Корпус русского литературного языка Раздел «Наши ресурсы» Создание конкорданса по текстам речевого корпусатекстам
11 Доступ к Корпусу Речевой корпус: -монологическое (спонтанные монологи); -дикторское (радиосводки Ю.Б. Левитана); -прочитанное; -диалоги.
12 Доступ к Корпусу
14 Частотный словарь словоформ русской спонтанной речи Орфографическая расшифровка ТранскрипцияЧастотность городу [go+r*du]2 Количество уникальных строкС/фС/у потом [patu+m] 3 потом [pato+m] 8 потом [p*tu+] 1
15 Граница между словами в корпусе устных текстов «Составные слова» = «сочетания эквивалентные слову» потому_что как_бы то_есть … и др. Венцов А.В., Грудева Е.В., Касевич В.Б., Ягунова Е.В. Идиомы в Национальном корпусе русского литературного языка // Международная конференция «Корпусная лингвистика–2004» Тезисы докладов (12-14 октября 2004 г., С.-Петербург). СПб, С. 17–18. Венцов А.В., Грудева Е.В. Частотный словарь словоформ русского языка (проект). Череповец, с.
16 Граница между словами в корпусе устных текстов то_есть [tQs / tıs j ] потому_что [gua+S / guá ʃ ]
17 Граница между словами в корпусе устных текстов человека_общаться [C*lE+kap$a+c* / ʨ əl ɛ +kap ɕ a+ ʦ ə] Стяжение – слияние двух смежных звуков, приводящее к возникновению одного. театр [t&tr / t ʲ ætr] ему_уже [Qimu+Z / ɨ mu+ ʒ ] дети_оттуда [dEt&tuda / d ʲ ε+t ʲ ætuda] при своём_мнении [pr* sa+emnE+ni / prə sa+emn ʲɛ +n ʲ i]
18 Спектрограмма сочетания когда_он [kagda+ o+n] – стяжения не произошло
19 Спектрограмма стяжения щи_ото [$&ta / ɕʲ æta] (из словосочетания вещи_отождествлять [v'E+$&taZd'istl'&+t / v ʲɛ + ɕ æta ʒ d ʲ istl ʲ æ+t ʲ ]) стяжение
20 Стяжения гласных и согласных в Корпусе русских спонтанных текстов СтяженияКоличествоПроцент от общего числа проанализи- рованных сочетаний V+V или C+C на стыке словоформ, % гласных31055,5 согласных10674,1
21 Стяжения в спонтанной и прочитанной речи гласныесогласные всего сочетаний стяжениявсего сочетаний стяжения спонтанная (115 мин) (55,5%) (74,1%) прочитанная (46 мин) (63,0%) 3938 (97,9%)
22 Три вида единиц: отдельные словоформы (я, четыре и т.д); составные слова (то_есть, всё_равно и др.); словоформы, подвергшиеся стяжению (что_он [Ston / ʃ ton], дайте_им [da+etim / dáet j im] и др.)
23 Перспективы верификация созданной транскрипции; дальнейшая фонетическая расшифровка записей; пополнение общего объема корпуса, в том числе за счет привлечения записей подготовленной русской речи (дикторской речи, прочитанных текстов); разработка более совершенной системы поиска.
24 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.