1 Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься?

Презентация:



Advertisements
Похожие презентации
ФРАЗОВАЯ АКЦЕНТУАЦИЯ В СЛОЖНЫХ ПРЕДЛОЖЕНИЯХ С ПОСТПОЗИТИВНЫМ ПРИДАТОЧНЫМ Н.А. Коротаев (РГГУ) В.И. Подлесская (РГГУ)
Advertisements

Тема 3. Локальная структура дискурса Общая теория словесности © А.А.Кибрик, 2005.
ПОГРАНИЧНАЯ ПАУЗАЦИЯ В ЦИТАЦИОННЫХ КОНСТРУКЦИЯХ: КОРПУСНОЕ ИССЛЕДОВАНИЕ РУССКОГО ЯЗЫКА А.О. Литвиненко «Корпусная лингвистика» Санкт-Петербург,
Типовые расчёты Растворы
Российские разработки корпусов устной речи I. Корпусы звучащей речи = фонетические базы данных II. Корпусы устных текстов.
Сочинение-рассуждение на лингвистическую тему (Часть С)
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции

Урок повторения по теме: «Сила». Задание 1 Задание 2.
1 Карагандинский государственный технический университет Лекция 4-1. Особенности задач оптимизации. «Разработка средств механизации для устройства «Разработка.
Маршрутный лист «Числа до 100» ? ? ?
СТРАТЕГИИ ПЕРЕДАЧИ «ЧУЖОЙ РЕЧИ» В РАССКАЗАХ ПО КАРТИНКАМ А.О. Литвиненко МГУ им. М.В. Ломоносова.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Учебный курс Объектно-ориентированный анализ и программирование Лекция 4 Трансформация логической модели в программный код Лекции читает кандидат технических.
Модуль переноса решений Как средство распространения партнерских решений Варфоломеев Антон Директор по производству DocsVision.
1. Определить последовательность проезда перекрестка
Школьная форма Презентация для родительского собрания.
Теория Курс пользователя типового реестра государственных и муниципальных услуг 1.

Powerpoint Templates Page 1 Язык разметки гипертекста HTML.
Транксрипт:

1 Н. А. Коротаев Центр лингвистической типологии Опыт создания корпуса звучащей речи: зачем это нужно и как этим заниматься?

2 Корпуса и устная речь Что такое корпус Реальные тексты Разметка Поиск Казалось бы, устная речь – это идеальный объект корпусной лингвистики Но в жизни всё «не совсем так»

3 Корпусных устных данных меньше, чем письменных Национальный корпус русского языка Подкорпус Словоупотреблений Основной корпус 230 млн Газетный под корпус 173 млн Устный под корпус 11 млн Мультимедийный под корпус 4 млн

4 Устный под корпус НКРЯ Самый крупный корпусный ресурс по изучению устной русской речи Доступна та же разметка, что и для основного корпуса Не доступен исходный аудиосигнал Практически отсутствует специальная «устная» разметка

5 Пример: конструкции с то что «Рассказы о сновидениях» (0.4) и когда я= (0.6) с-сам /\просыпаюсь, мне как бы /\кажется, (0.6) то что й-я (0.1) во /–\сне-е ещё. Устный под корпус НКРЯ Потом ещё… Люди говорят / то что эмо режут вены и много плачут.

6 Пример: конструкции с то что Устный под корпус НКРЯ Он боится то / что я скроюсь и не расплачусь с ним и он будет выплачивать за меня деньги // Почему ты считаешь то / что ты помнишь / а я не помню. Вот все говорят то / что российские шампуни там дешевые. Слеши в расшифровках необязательно соответствуют просодической реальности

7 Корпус звучащей речи Должен быть доступен исходный звуковой сигнал Никакая разметка не может полностью заменить звук; она только дополняет его Желательно иметь специальную «устную» разметку: Сегментация Интонация Паузы Чем подробнее разметка, тем меньше объем корпуса

8 Примеры корпусов МУРКО ( murco.html) murco.html есть аудио и видео («кликсты») преимущественно фрагменты кинофильмов графическая запись – как в устном под корпусе НКРЯ Русскоязычный эмоциональный корпус ( есть аудио и видео (файлы ELAN) нет открытого доступа

9 Примеры корпусов «Один речевой день» ( доступна демо-версия есть аудио (файлы ELAN) специальные правила графической записи Звуковой корпус говора Устьянского района Архангельской области ( есть аудио удобная выдача по поисковому запросу графическая запись – примерно как в НКРЯ

10 «Рассказы о сновидениях и другие корпуса звучащей речи» А. А. Кибрик, В. И. Подлесская Н. А. Коротаев, А. О. Литвиненко, … Монологические тексты нарративных жанров: Рассказы о снах Истории из жизни Рассказы по картинкам и пересказы тех же сюжетов по памяти В русской части: 226 рассказов Чуть более 4 часов звучания Чуть более 30 тысяч словоупотреблений

11 Важные особенности Полные версии звуковых файлов Детальная система нотации Дискурсивная транскрипция нескольких уровней подробности Система выравнивания звука и транскрипта «Пошаговое» проигрывание фрагментов рассказа Доступны для скачивания файлы ELAN Система поиска (в разработке)

12 Дискурсивная транскрипция Графическая запись, преимущественно учитывающая локальную дискурсивную структуру Две главные задачи: Редукция Интерпретация Ключевые характеристики: Систематичность Подробная инструкция по транскрибированию Непредвзятость

13 Основные явления, отмечаемые в «нашей» системе транскрипции Сегментация речевого потока на элементарные дискурсивные единицы Разбиение транскриптов на строки Сегментация на «предложения» Пунктуационные знаки в конце строк Паузы Акценты и движения тона Иконические слеши и стрелки Речевые сбои

14 Элементарная дискурсивная единица (ЭДЕ) Минимальный квант в порождении речи Когнитивная перспектива «Фокус сознания» (У. Чейф) Физиологическая перспектива Координация с дыханием Просодико-коммуникативная перспектива Единый интонационный контур Стандартная роль в коммуникативной структуре высказывания Семантико-синтаксическая перспектива Описание одной ситуации Синтаксический формат простой клаузы (около 2/3 случаев)

15 Типология ЭДЕ Один из возможных параметров классификации ЭДЕ – степень соответствия синтаксическому формату простой клаузы Клаузальные («канонические») ЭДЕ «Малые» ЭДЕ Регуляторные (вот) Субклаузальные «Большие» ЭДЕ Глагольные редупликации Контексты с грамматикализованными глаголами речи или эпистемической оценки (кажется)

16 Парцелляция / приращение (тип субклаузальных ЭДЕ) Парцелляция - запланированное разделение простой клаузы на две или более ЭДЕ Приращение – пост позитивное «присоединение» к уже произнесенной клаузе непредикативного фрагмента В обоих случаях: Синтаксически вроде бы одна клауза Интонационно – две отдельных коммуникативно-просодических составляющих В «Рассказах о сновидениях» более 6% ЭДЕ являются парцелляциями или приращениями

17 Интонационная разметка Основная разметка Расположение акцентов ( фразовых / логических ударений) Движения тона на ударных (а иногда – и заударных) слогах акцентированных словоформ Дополнительная разметка Разметка в терминах ИК (по Брызгуновой – Янко)

18 Интонация и «предложение» «Предложение» - последовательность ЭДЕ, заключительная из которых характеризуется иллокутивной завершенностью «точка» - конец предложения- сообщения «запятая» - не-конец предложения Канонические соответствия: «точка» - нисходящий акцент типа ИК- 1 «запятая» - восходящий акцент типа ИК-3

19 Осложнения картины Особые типы незавершенности «Открытый список» (ИК-6) «Рассказ по порядку» (ИК-4) Раздельное выражение ремы и незавершенности Нефинальное падение

20 Нефинальные падения Наблюдается нисходящее движение тона в главном акценте, но завершения предложения не усматривается Предположительно, основной критерий – целевой уровень падения при нисходящем акценте Отличие от финального падения – в 2-4 полутона Необходимо иметь «просодические портреты» говорящих

21 Нефинальные падения «Рассказы о сновидениях» «Точка с падением»748 «Запятая с подъемом»960 «Запятая с падением»557

22 Акцентные схемы в сложноподчиненных конструкциях Какие движения тона реализуются в главных акцентах ЭДЕ, составляющих сложную конструкцию «Дефолтная» схема (0.3) (0.2) делаю такие /движения, которые /наяву я не \могу-у –де-елать, «Дезинтегрированная» схема (1.4) Тогда (0.1) мой /кома-андир /меня /наградил /золот-той \меда-алью. (0.3) Которая /стоил-ла /двести \долларов.

23 Акцентные схемы в сложноподчиненных конструкциях «Рассказы о сновидениях» Дефолтна я Дезинтегри -рованная Другие схемы Объектные 60%26%14% Определи- тельные 39%45%16% Обстоятель -ственные 37%50%13%

24 Разметка пауз (временная разметка) Абсолютные паузы Заполненные паузы «аканья» «маканья» гортанный скрип Смешанные паузы Паузы локализуются в звуковом файле при помощи модуля Annotations в среде Praat В этом же модуле размечаются и границы ЭДЕ (и именно это позволяет проигрывать отдельные строки транскриптов на сайте)

25 Паузы и границы ЭДЕ «Рассказы о сновидениях» Тип пауз Абсол. Заполненные Простые Смеша н. Итог о Пограничны е Внутренние

26 Пограничные паузы в сложноподчиненных конструкциях «Рассказы о сновидениях» Ср. знач. Доля нулевых пауз Доля пауз от 0.5 с Объекты (пост поз.) %11.5% Обстоятельства (пост поз.) %15.1% Определения (пост поз.) %19.2% Обстоятельства (препод.) %28.6%

27 Речевые сбои (самоисправления) Одна из ключевых особенностей неподготовленной устной речи Степень «травматичности» самоисправления «Слабый фальстарт» Реализуя самоисправление, говорящий «спасает» текущую ЭДЕ «Сильный фальстарт» Реализуя самоисправление, говорящий «бросает» текущую ЭДЕ и, возможно, довольно значительно перестраивает локальную структуру

28 Пример «слабого фальстарта» «Весёлые истории из жизни» А /тёткаа э которая эти \щи самые /кладёт, не к= || не /кладёт мне в них \сметану.

29 Пример «сильного фальстарта» «Истории сибиряков о жизни» э Так \вот, когда мы всё это дело /проверили, э ночьюу /подготовили мм э всё /открыли, но на всякий случай взяли с собой == э \а!, \нет, э всё мы п= || э /открыли-/приготовили, ии полезли э уже на следующее /утро, э в /костюмах в парадных, э с /цветами, э в соседний \подъезд.

30 Закономерность В целом менее аатравматичные самоисправления встречаются чаще, чем более аатравматичные Самый частотный тип самоисправлений – это повтор оборванного небольшого фрагмента в начале или середине ЭДЕ (см. пример со сметаной)

31 Другие размечаемые явления Фазово-иллокутивные значения Не только «точки» и «запятые» Скобочные структуры («вставки») Ускоренный темп Сниженный регистр Цитации Прямые vs. косвенные vs. полупрямые

32 Файлы ELAN Доступны для скачивания и дальнейшей оффлайн-работы Широко используемый формат для аннотирования аудио- и видеофайлов «Плоская» транскрипция преобразуется в аналог базы данных Встроенная система поиска

33 Поиск на сайте (в разработке) Задача – использовать информацию, уникальную для данных корпусов Основная единица поискового запроса – ЭДЕ Можно задавать свойства в следующих вкладах: Тип ЭДЕ Фазово-иллокутивное значение Слова и паузы Акценты Выдача по запросу будет производиться в формате «звук + транскрипт»

34 Выводы Корпус звучащей речи должен иметь два тесно связанных между собой компонента: фрагменты / полные версии исходных звуковых файлов транскрипты Разметка таких корпусов должна учитывать базовые явления устной речи В зависимости от задач предполагаемых исследований может выбираться разная степень детальности разметки А соответственно, и разный реалистично доступный объем корпуса

35 Выводы При любом уровне детализации необходимо обеспечить систематичность и непредвзятость нотации Тогда, даже если корпус невелик, при наличии «уникальной» разметки с его помощью можно получать значимые результаты