Изменение длительности и высоты звучания Алексей Лукин.

Презентация:



Advertisements
Похожие презентации
Применения банков фильтров Лектор: Лукин Алексей Сергеевич.
Advertisements

Применения банков фильтров Лектор: Лукин Алексей Сергеевич.
Применения банков фильтров Лектор: Лукин Алексей Сергеевич.
Работу выполнила Ученица 9 «а» класса Малеина Кристина.
Вейвлеты и банки фильтров Лектор: Лукин Алексей Сергеевич.
Звук и слух. Основы DSP. Занятие 1. План Звуковые сигналы и их восприятие Звуковые сигналы и их восприятие Цифровые и аналоговые сигналы. Дискретизация.
Кодирование звуковой информации Мясникова О.К.. Временная дискретизация звука Звук – звуковая волна с непрерывно меняющейся амплитудой и частотой. Чем.
Сигнал Аналоговый и цифровой сигналы 2/15 Аналоговый сигнал Цифровой сигнал Время Амплитуда.
Представление звуковой и видеоинформации в компьютере.
Кодирование и обработка звуковой информации 9 класс. Учитель: Бычкова О.В.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
Двоичное кодирование звуковой информации Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
Тема: Двоичное кодирование звуковой информации. Глава: Кодирование и обработка графической и мультимедийной информации Учебник: Н.Угринович. Базовый курс.
ЕГЭ Урок 6 Кодирование звуковой информации. Двоичное кодирование звуковой информации в компьютере Звук представляет собой распространяющуюся в воздухе,
Кодирование и обработка звуковой информации. Звуковая информация Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно.
Лекция 11 Дискретное преобразование Фурье Дискретное преобразование Фурье (ДПФ) относится к классу основных преобразований при цифровой обработке сигналов.
Модуляция – изменение амплитуды высокочастотных колебаний с помощью электрических колебаний звуковой частоты.
1 Двоичное кодирование графической и звуковой информации 10 августа 2012 г.
Транксрипт:

Изменение длительности и высоты звучания Алексей Лукин

2/19 Задача Требуется изменить длительности звучания или высоту звучания независимо друг друга Требуется изменить длительности звучания или высоту звучания независимо друг друга Простой подход: Простой подход: (аналоговый) запишем на ленту и изменим скорость прокрутки ленты (аналоговый) запишем на ленту и изменим скорость прокрутки ленты (цифровой) сменим частоту дискретизации (resampling) (цифровой) сменим частоту дискретизации (resampling) Увы: высота и длительность меняются синхронно! Увы: высота и длительность меняются синхронно! Celine DionУскорение на 20%

3/19 Задача Независимое изменение высоты и длительности, с сохранением достоверности звучания Независимое изменение высоты и длительности, с сохранением достоверности звучания Приложения: Приложения: Сэмплеры и виртуальные инструменты Сэмплеры и виртуальные инструменты Подстройка скорости фильмов под ТВ Подстройка скорости фильмов под ТВ Караоке: смена тональности Караоке: смена тональности «Звуковой микроскоп» в обучении музыке «Звуковой микроскоп» в обучении музыке

4/19 Временная область Методы временной области работают с волной Методы временной области работают с волной 1.Разбиваем сигнал на короткие гранулы (окна) 2.Повторяем или выкидываем (или сдвигаем) гранулы для изменения длительности 3.Передискретизация для изменения высоты Некоторые картинки взяты из диссертации J. Bonada

5/19 Временная область Методы временной области работают с волной Методы временной области работают с волной 1.Разбиваем сигнал на короткие гранулы (окна) 2.Повторяем или выкидываем (или сдвигаем) гранулы для изменения длительности 3.Передискретизация для изменения высоты Проблемы: Проблемы: Гранулы могут складываться в фазе (хорошо) или в противофазе (плохо) Гранулы могут складываться в фазе (хорошо) или в противофазе (плохо) Транзиенты могут исчезать или дублироваться Транзиенты могут исчезать или дублироваться Guitar+castanetsЗамедление до 220% длины

6/19 Временная область Решение: Решение: Выбор размера гранул кратным основному тону, тогда они сложатся в фазе (требуется вычисление автокорреляции или анализ высоты осн. тона) Выбор размера гранул кратным основному тону, тогда они сложатся в фазе (требуется вычисление автокорреляции или анализ высоты осн. тона) Запрет дублирования или выкидывания гранул с транзиентами (требуется поиск транзиентов и аккуратный план изменения гранул) Запрет дублирования или выкидывания гранул с транзиентами (требуется поиск транзиентов и аккуратный план изменения гранул) Фиксированный размер гранул Pitch-synchronous granule size (PSOLA) Pitch-synchronous granule size, transients detection

7/19 Временная область Pitch-synchronous overlap-add (PSOLA) Pitch-synchronous overlap-add (PSOLA) Размер гранул – 2 периода осн. тона Размер гранул – 2 периода осн. тона Гранулы повторяются или откидываются Гранулы повторяются или откидываются Нестабильные результаты для нетонального или полифонического материала Нестабильные результаты для нетонального или полифонического материала

8/19 Временная область Выводы Выводы Высокая скорость (1…5% CPU) Высокая скорость (1…5% CPU) Хорошее качество для сольных инструментов и вокала Хорошее качество для сольных инструментов и вокала Плохое качество для нетонального или полифонического материала: Плохое качество для нетонального или полифонического материала: Амплитудная модуляция (когда тона складываются не в фазе) Амплитудная модуляция (когда тона складываются не в фазе) Повторяемые или теряемые транзиенты (если только их явно не обработали) Повторяемые или теряемые транзиенты (если только их явно не обработали) Реализации Реализации Редакторы, сэмплеры: Audition, Cubase, Logic, Ableton, ACID Редакторы, сэмплеры: Audition, Cubase, Logic, Ableton, ACID Коректоры вокала: Melodyne, Autotune Коректоры вокала: Melodyne, Autotune + –

9/19 Вокодеры Методы частотной области работают с оконным спектром сигнала Методы частотной области работают с оконным спектром сигнала Идея: построить спектрограмму (используя STFT) и ресинтезировать звук с отличающимся шагом по времени (synthesis hop) Идея: построить спектрограмму (используя STFT) и ресинтезировать звук с отличающимся шагом по времени (synthesis hop) Проблема: при синтезе гранулы сигнала могут складываться не в фазе Проблема: при синтезе гранулы сигнала могут складываться не в фазе Решение: изменение фазы на каждой частоте Решение: изменение фазы на каждой частоте («разворачивание фазы»)

10/19 Вокодеры Традиционный алгоритм: Традиционный алгоритм: 1.Вычислить STFT от сигнала 2.Развернуть фазы для каждого частотного канала (чтобы скомпенсировать изменение шага синтеза), не изменять амплитуды 3.Синтезировать сигнал обратным STFT с другим шагом по времени

11/19 Вокодеры Амплитуды не изменяются Амплитуды не изменяются Формулы для разворачивания фаз обеспечивают сложение в фазе для кажой базисной функции STFT («горизонтальая фазовая когерентность») Формулы для разворачивания фаз обеспечивают сложение в фазе для кажой базисной функции STFT («горизонтальая фазовая когерентность») (инкремент фазы) (разворачивание фазы) (фаза для синтеза)

12/19 Вокодеры Проблема фазовой когерентности Проблема фазовой когерентности Горизонтальная когерентность обеспечивается разворачиванием фаз Горизонтальная когерентность обеспечивается разворачиванием фаз Как насчет вертикальной когерентности? (согласованность фаз в соседних частотных каналах) Она пропадает! (за исключением случая целочисленного растяжения) Это порождает: Как насчет вертикальной когерентности? (согласованность фаз в соседних частотных каналах) Она пропадает! (за исключением случая целочисленного растяжения) Это порождает: Phasiness из-за сложения не в фазе базисных функций, принадлежащих одному тону исходного сигнала Phasiness из-за сложения не в фазе базисных функций, принадлежащих одному тону исходного сигнала Размытие транзмиентов на всю гранулу Размытие транзмиентов на всю гранулу Guitar+castanetsVocoder 220% length

13/19 Вокодеры Улучшение вертикальной фазовой когерентности: алгоритм «фазовой блокировки» фиксирует фазовые соотношения в пределах каждого спектрального пика Улучшение вертикальной фазовой когерентности: алгоритм «фазовой блокировки» фиксирует фазовые соотношения в пределах каждого спектрального пика 1.Делим спектр на частотные интервалы, соответствующие пикам 2.Разворачиваем фазу центрального (пикового) канала 3.Разворачиваем фазы окружающих каналов согласно центральному Это уменьшает «фазовость», но не спасает от размытия транзиентов Это уменьшает «фазовость», но не спасает от размытия транзиентов Без фазовой блокировкиС блокировкой

Time-scale and pitch modification algorithms 14/19 Вокодеры Как предотвратить размытие транзиентов? Как предотвратить размытие транзиентов? Частотное разрешение слуха неравномерно: оно лучше на низких и хуже на высоких частотах Частотное разрешение слуха неравномерно: оно лучше на низких и хуже на высоких частотах Можно использовать длинные окна на НЧ (для лучшего частотного разрешения) и короткие окна на ВЧ Можно использовать длинные окна на НЧ (для лучшего частотного разрешения) и короткие окна на ВЧ С фазовой блокировкой С блокировкой и разными размерами окон

Time-scale and pitch modification algorithms 15/19 Вокодеры Как предотвратить размытие транзиентов? Как предотвратить размытие транзиентов? Можно перенести транзиенты в результирующий сигнал без растяжения (и модификации фаз) Можно перенести транзиенты в результирующий сигнал без растяжения (и модификации фаз) Разворачивание фаз гармоник сквозь транзиенты Разворачивание фаз гармоник сквозь транзиенты Phase locking and multiple window sizes + transients pasted

Time-scale and pitch modification algorithms 16/19 Вокодеры Выводы Выводы Хорошее качество для сложных, полифонических звуков Хорошее качество для сложных, полифонических звуков Некоторая «фазовость» (даже с фазовой блокировкой) Некоторая «фазовость» (даже с фазовой блокировкой) Размытие транзиентов (если их не обрабатывать) Размытие транзиентов (если их не обрабатывать) Шумовые сигналы могут звучать неестественно Шумовые сигналы могут звучать неестественно Высокая сложность (но быстрее реального времени) Высокая сложность (но быстрее реального времени) Реализации Реализации Специализированные программы: SlowGold, Serato TimenPitch, iZotope Radius Специализированные программы: SlowGold, Serato TimenPitch, iZotope Radius + –