Классификация музыкальных сигналов по временным характеристикам. Строкина Н.В. группа 4305.

Презентация:



Advertisements
Похожие презентации
Основы цифровой обработки речевых сигналов. Общая схема процесса речеобразования x[n] – дискретные отсчеты сигнала возбуждения y[n] – дискретные отсчеты.
Advertisements

Быстрое преобразование Фурье Введение. Представление сигналов с помощью гармонических функций В качестве примера рассмотрим представление сигнала типа.
Фильтры с конечной импульсной характеристикой (КИХ) Введение.
Корреляционный анализ детерминированных дискретных сигналов.
ВЫПОЛНИЛА: САМАРИНА ДАРЬЯ ЭР Исследование характеристик кодов ИКМ 1.
Лекция 11 Дискретное преобразование Фурье Дискретное преобразование Фурье (ДПФ) относится к классу основных преобразований при цифровой обработке сигналов.
Лекция 4 План лекции 14 Весовые окна Периодограммный метод оценки спектра Кореллограммный метод оценки спектра Функция когерентности Авторегрессионные.
Обобщающий урок на тему: «Применение производной и ее графика для чтения свойств функций» Задачи урока: Выработать специфические умения и навыки по работе.
Наумова Ирина Михайловна1 Функция y = cos x Ее свойства и график.
Лекция 5. Модели надежности программного обеспечения Учебные вопросы: 1. Классификация моделей надежности 2. Аналитические модели надежности 3. Эмпирические.
1 Тема 3 Динамическая форма отображения сигналов Основной задачей динамической модели является математическое описание реакции системы (выходного сигнала.
Двоичное кодирование звуковой информации Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
Моделирование и исследование мехатронных систем Курс лекций.
Лекция 6. Нейронные сети Хопфилда и Хэмминга Среди различных конфигураций искусственных нейронных сетей (НС) встречаются такие, при классификации которых.
Лекция 8 План лекции 8 Контрольные вопросы Теорема отсчетов Дискретное преобразование Фурье Спектральная плотность мощности Дополнение последовательности.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
1 Тема урока : Построение информационных моделей Урок 2 9 января 2011 г. 03:06.
Свойства функций. Схема исследования: Область определения Множество значений Нули функции Интервалы знакопостоянства Промежутки монотонности Точки экстремума.
Симплекс-метод Лекции 6, 7. Симплекс-метод с естественным базисом Симплекс –метод основан на переходе от одного опорного плана к другому, при котором.
Двоичное кодирование звуковой информации Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.
Транксрипт:

Классификация музыкальных сигналов по временным характеристикам. Строкина Н.В. группа 4305

2 1. Цель работы. Обзор подходов к решению задачи классификации музыкальных сигналов и выбор оптимального способа. Изучение характеристик аудио сигналов. Исследование алгоритмов BPM-детектирования. Разработка программного модуля, вычисляющего временные характеристики аудио сигналов: количество бит в минуту, частоту переходов через ноль, пик-фактор. Тестирование программного модуля. 2. Перечень решаемых задач. Исследование подходов к решению задачи классификации аудио сигналов и разработка способа, позволяющего наиболее быстро получить достаточно точный результат.

3 3. Обзор подходов к решению задачи классификации музыкальных сигналов. Нейронные сети Нейронная сеть (рисунок 1) – это математическая модель, а также устройства параллельных вычислений, представляющие собой систему соединённых и взаимодействующих между собой простых процессоров. Нейронная сеть обучается на некоторой базе файлов, а затем решает вопрос о принадлежности сигнала тому или иному классу. Рисунок 1 – Схема нейронной сети. Метод опорных векторов Каждый сигнал представлен, как вектор (точка) в p-мерном пространстве (рисунок 2), состоящий из значений некоторых характеристик. Каждый сигнал принадлежит только одному из нескольких классов. Используются статистические методы для определения принадлежности объекта к классу. Рисунок 2 – Иллюстрация метода опорных векторов.

4 4. Характеристики аудио сигналов Физические характеристики Временные: - мощность - частота переходов через ноль (ZCR) - пик-фактор Спектральные - спектральная энергия - гармоничность - спектральный центроид - крутизна спада спектра Характеристики восприятия Основной тон Тембр Ритм Число ударов в минуту (BPM) Темп

5 5. Временные характеристики. ZCR (zero crossing rate) – частота переходов через ноль – является показателем того, сколько раз сигнал проходил через ноль в течение заданного промежутка времени, вычисляется по формуле (1). (1) где функция sign принимает значение 1, если аргумент положителен, и 0, если аргумент отрицателен, а x[i] – значение i-го отсчета. Чистая музыка Пение Рисунок 4. – Графики среднего ZCR для чистой музыки и для пения.

6 5. Временные характеристики. BPM (beats per minute) – параметр, определяющий количество ударов в минуту. Пик-фактор. Пик-фактором называется отношение пиковой мощности к средней (измеряется в дБ) (2). (2) Пиковая мощность определяется как максимальная мощность воспроизведения определенного аудио сигнала (3). (3) где - значение текущего отсчета, N – длина сигнала. Средняя мощность - это усредненная мощность для данного временного интервала (4). (4)

7 6. Алгоритмы BPM-детектирования. Алгоритм, основанный на понятии «мощность сигнала» - в ычисляется отношение средней мощности сигнала к мгновенной мощности для каждой из полос - бит детектируется только, когда мгновенная мощность больше средней энергии, в заданное количество раз, соответствующее некоторому пороговому значению. Достоинства : хорошо работает для клубной и реп-музыки. Трудности возникают при обработки поп- и рок- музыки, а также в ситуациях, когда звучат одновременно несколько инструментов. Трудности при выборе порога Алгоритм, основанный на понятии «мощность сигнала» (оптимизация) - некоторый фрагмент исходного сигнала переводится в частотную область. - спектр сигнала делится на заданное количество частотных полос - вычисляется мощность каждой частотной полосы и сравнивается с соответствующей средней энергией - Если был обнаружен резкий подъем энергии в одной или нескольких частотных полосах, то алгоритм фиксирует бит. Достоинства : решаются проблемы первого алгоритма Трудности : трудоемкость вычислений и ресурсоемкость.

8 7. Алгоритм, основанный на фильтрации. Начало Нахождение огибающей Децимация Свертка с импульсной функцией Конец Нахождение модуля сигнала Свертка с фильтром высоких частот Алгоритм (рисунок 5) основан на использовании функция корреляции для т оценки «похожести» обрабатываемого аудио сигнала на сигнал, представляющий собой последовательность единичных импульсов определенной частоты. Имеется целый набор такого рода сигналов, где импульсы повторяются с частотой, соответствующей некоторому BPM. Количество таких сигналов равно количеству проверяемых BPM. Рисунок 5 – Схема вычисления BPM

9 8. Пример выполнения алгоритма Шаг 1. Свертка с фильтром высоких частот. С помощью фильтра высоких частот выделяем частотную полосу, в которой лежат ударные инструменты. На рисунках 6 и 7 изображены входной и выходной сигнал данного блока. Рисунок 6 - Исходный сигнал.Рисунок 7 - Сигнал после свертки с фильтром.

10 8. Пример выполнения алгоритма Шаг 2. Нахождение модуля сигнала. После этого шага сигнал будет иметь вид (рисунок 8): Шаг 3. Нахождение огибающей. Фильтрация сигнала фильтром низких частот с полосой пропускания 0-20Гц. Выходной сигнал – рисунок 9. Рисунок 8 - Модуль сигнала.Рисунок 9 - Сигнал после свертки с фильтром.

11 8. Пример выполнения алгоритма Шаг 4 Свертка с импульсной функцией. Для каждого значения BPM происходит свертка с сигналом, представляющим собой единичные импульсы, расставленные с периодом, равным соответствующему BPM, и различными сдвигами первого импульса относительно нуля. Перебирая все сдвиги для каждого BPM, определяется, при каком BPM значение свертки было максимально. Для рассматриваемого файла значения свертки для различных BPM представлено на рисунке 10. Рисунок 10 - График значений свертки для различных BPM.

12 9. Результаты тестирования. Таблица 1 – Результаты тестирования программы на поп-музыке. (BPM) Название файла BPMОценка надежности 090_bpm.wav90100% 091_bpm.wav90,6799,8% 096_bpm.wav96100% 099_bpm.wav96,6777,02% 100_bpm.wav100100% 104_bpm.wav10398,06% 105_bpm.wav101,6778,14% 112_bpm.wav112100% 115_bpm.wav115100% 116_bpm.wav116100% 121_bpm.wav12099,4% 125_bpm.wav125100% 128_bpm.wav128100% 135_bpm.wav135100% 143_bpm.wav143100%

13 9. Результаты тестирования. Таблица 2 – Результаты тестирования программы на поп-музыке Название файла ZCRПик-фактор (дБ) 090_bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav _bpm.wav

14 9. Результаты тестирования. Таблица 3 – Результаты тестирования программы на классической музыке. Название файла ZCRПик-фактор (дБ) Чайковский – Концерт Бетховен – К Элизе Штраус – Вальс Бетховен – Симфония Бетховен – Лунная соната Моцарт - Реквием Таблица 4 – Результаты профилирования программы на PC. Количество тестовых файлов 100 Время тестирования84сек. Общая длина файлов24 412сек.= 6ч. 46мин. 52сек. Средняя длина одного файла244сек. = 4мин. 4сек. Среднее время тестирования одного файла 0,84сек.

Результаты. Проведено исследование способов классификации аудио файлов, их анализ и обоснование выбранного способа Изучены характеристики аудио сигналов, показано, как они меняются для различных сигналов и оценена их важность в тех или иных задачах. Разработан программный модуль, вычисляющий временные характеристики аудио сигналов: ZCR, BPM и пик-фактор. Проведено тестирование разработанного программного модуля.