РАБОТА СО ЗВУКОМ Лекция 3 ( По мотивам монографии Катунина Г. П.)

Презентация:



Advertisements
Похожие презентации
Описание формата МР 3 MP3 – это наиболее популярный формат хранения и передачи информации в цифровой.
Advertisements

А.В.Выходец Начальник отдела РВ ГП УНИИРТ к.т.н. профессор.
Тема: Двоичное кодирование звуковой информации. Глава: Кодирование и обработка графической и мультимедийной информации Учебник: Н.Угринович. Базовый курс.
Цифровой звук Мультимедиа технологии. Цифровое аудио Запись / воспроизведение звука с использованием цифрового сигнала импульсно - кодовой модуляции (Pulse.
Лекция 1 Алгоритмы сжатия изображений Медведева Елена Викторовна дисц. Цифровая обработка изображений.
Кодирование звуковой информации Информатика и ИКТ 10 класс Гимназия 1 г. Новокуйбышевска Учитель информатики: Красакова О.Н.
Методики первичной обработки оперативных фонограмм лекция по дисциплине «СПЕЦИАЛЬНЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ПРАВООХРАНИТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ»
ГОУВПО «Московский Энергетический Институт (Технический Университет)» Кафедра Радиотехнических систем Тема магистерской диссертации: «РАЗРАБОТКА И РЕАЛИЗАЦИЯ.
Звук - в широком смысле - колебательное движение частиц упругой среды, распространяющееся в виде волн в газообразной, жидкой или твердой средах.
Кодирование и обработка звуковой информации. Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с.
Кодирование информации. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными.
Тема урока: «Кодирование звуковой информации» Кодирование звуковой информации.htm.
Цифровое телевидение - способ передачи и приема сжатого цифрового видеосигнала, является современной альтернативой традиционному аналоговому телевидению.
Сжатие информации - проблема, имеющая достаточно давнюю историю, гораздо более давнюю, нежели история развития вычислительной техники, которая обычно.
Двоичное кодирование звука. Представление видеоинформации Информация и информационные процессы.
Выполнила : Ситдикова Полина. Разделение каналов осуществляется по частотам. Так как радиоканал обладает определённым спектром, то в сумме всех передающих.
2 МУЛЬТИМЕДИА ЛЕКЦИЯ 4 Тема 2 Занятие 1 Тема: Основы обработки аудиоинформации в ПЭВМ ЦЕЛЬ: 1. Сформировать информационно-наглядное представление о месте,
План-конспект урока по информатике и икт (9 класс) по теме: Кодирование и обработка звуковой информации. Создание звукового клипа
Консультационный центр по подготовке выпускников к Государственной (итоговой) аттестации.
Кодирование информации Подготовила: учитель информатики Ефимова Н.Ю.
Транксрипт:

РАБОТА СО ЗВУКОМ Лекция 3 ( По мотивам монографии Катунина Г. П.)

СЖАТИЕ ЗВУКОВОЙ ИНФОРМАЦИИ

Общие сведения :03 ММТ *** Лекция 5*** Звук -4 3 При первичном кодировании в студийном тракте используется обычно равномерное квантование отсчетов звукового сигнала ( ЗС ) с разрешением А бит / отсчет при частоте дискретизации f = 44, кГц. В каналах студийного качества обычно А =16 бит / отсчет, f = 48 кГц, полоса частот кодируемого звукового сигнала F = Гц. Динамический диапазон такого цифрового канала составляет около 54 дБ. Если f = 48 кГц и А = 16 бит / отсчет, то скорость цифрового потока при передаче одного такого сигнала равна V = 48x16 = 768 кбит / с. Это требует суммарной пропускной способности канала связи при передаче звукового сигнала форматов 5.1 (Dolby Digital) более 3,840 Мбит / с.

Общие сведения :03 ММТ *** Лекция 5*** Звук -4 4 Но человек способен своими органами чувств сознательно обрабатывать лишь около 100 бит / с информации. Поэтому можно говорить о присущей первичным цифровым звуковым сигналам значительной избыточности. Работы по анализу качества и оценке эффективности алгоритмов компрессии цифровых аудиоданных с целью их последующей стандартизации начались в 1988 году, когда в Европе была образована международная экспертная группа MPEG (Moving Pictures Experts Group).

Общие сведения :03 ММТ *** Лекция 5*** Звук -4 5 Итогом работы этой группы на первом этапе явилось принятие в ноябре 1992 года международного, стандарта MPEG-1 ISO/IEC ( здесь и далее цифра 3 после номера стандарта относится к той его части, где речь идет о кодировании звуковых сигналов ). К настоящему времени достаточное распространение в радиовещании получили также еще несколько стандартов MPEG, таких, как MPEG-2 ISO/IEC , и MPEG-4 ISO/IEC

Общие сведения :03 ММТ *** Лекция 5*** Звук -4 6 В качестве альтернативны стандартам MPEG в США был разработан стандарт Dolby AC-3 ( А /52). Несколько позже четко сформировались две разные платформы цифровых технологий для радиовещания и телевидения - это DAB (Digital Audio Broadcasting), DRM (Digital Radio Mondiale), DVB ( с наземной DVB-T, кабельной DVB-C, спутниковой DVB-S разновидностями ) и ATSC (Dolby AC-3). Первая из них (DAB, DRM) продвигается Европой, ATSC - США. Отличаются эти платформы, прежде всего, выбранным алгоритмом компрессии цифровых аудиоданных, видом цифровой модуляции и процедурой помехоустойчивого кодирования ЗС.

Квантование и распределение битов :03 ММТ *** Лекция 5*** Звук -4 7 При компрессии цифровых аудиосигналов основное сжатие происходит в квантователе. В отдельных частотных полосах, квантователь изменяет шаг квантования таким образом, чтобы приблизить шум квантования в данной полосе к вычисленному порогу маскирования. При этом на отсчет может понадобиться вместо всего 4 или 5 битов. Принятие решения о передаваемых компонентах сигнала в каждой частотной полосе происходит независимо от других, и требуется некий « диспетчер », который выделил бы каждому из 32 полосных сигналов часть из общего ресурса битов, соответствующую значимости этого сигнала в общем ансамбле. Роль такого диспетчера выполняет устройство динамического распределения битов.

Квантование и распределение битов Обобщенная схема звукового кодера и декодера, выполняющих цифровое сжатие согласно описанному алгоритму с прямой адаптацией, приведена на рисунке 4.3, а. Сигналы на выходе частотных полос объединяются в единый цифровой поток с помощью мультиплексора :03 ММТ *** Лекция 5*** Звук -4 8 Рис Обобщенная структурная схема звукового кодера и декодера а ) с прямой адаптацией, б ) с обратной адаптацией

Квантование и распределение битов :03 ММТ *** Лекция 5*** Звук -4 9 В декодере процессы происходят в обратном порядке. Сигнал демультиплексируется, делением на масштабирующий множитель восстанавливаются исходные значения цифровых отсчетов в частотных полосах и поступают на объединяющий блок фильтров, который формирует на выходе поток звуковых данных, адекватный входному с точки зрения психофизиологического восприятия звукового сигнала человеческим ухом.

Семейство стандартов MPEG

:03 ММТ *** Лекция 5*** Звук MPEG расшифровывается как «Moving Picture Experts Group», дословно - группа экспертов по кодированию подвижных изображений. MPEG ведет свою историю с января 1988 года. Обычно, в собрании MPEG принимают участие около 350 специалистов из более чем 200 компаний. Большая часть участников MPEG - это специалисты, занятые в тех или иных научных и академических учреждениях. Первое собрание MPEG происходило в 1988 году в Ганновере.

Стандарт MPEG-1

:03 ММТ *** Лекция 5*** Звук Стандарт MPEG-1 (ISO/IEC ) включает в себя три алгоритма различных уровней сложности : Layer ( уровень ) I, Layer II и Layer III. Общая структура процесса кодирования одинакова для всех уровней. Однако, несмотря на схожесть уровней в общем подходе к кодированию, уровни различаются по целевому использованию и внутренним механизмам. Для каждого уровня определен свой цифровой поток ( общая ширина потока ) и свой алгоритм декодирования. MPEG-1 предназначен для кодирования сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Как было указано выше, MPEG-1 имеет три уровня (Layer I, II и III). Эти уровни имеют различия в обеспечиваемом коэффициенте сжатия и качестве звучания получаемых потоков.

Стандарт MPEG :03 ММТ *** Лекция 5*** Звук MPEG-1 нормирует для всех трех уровней следующие номиналы скоростей цифрового потока : 32, 48, 56, 64, 96, 112, 192, 256, 384 и 448 кбит / с, число уровней квантования входного сигнала - от 16 до 24. Предусматриваются следующие режимы работы звукового кодера : одиночный канал ( моно ); двойной канал ( стерео или два моноканала ); joint stereo ( сигнал с частичным разделением правого и левого каналов ). Важнейшим свойством MPEG-1 является полная обратная совместимость всех трех уровней. Это означает, что каждый декодер может декодировать сигналы не только своего, но и нижележащих уровней.

Стандарт MPEG :03 ММТ *** Лекция 5*** Звук В основу алгоритма Уровня I положен, разработанный компанией Philips для записи на компакт - кассеты, формат DCC (Digital Compact Cassette). Кодирование первого уровня применяется там, где не очень важна степень компрессии и решающими факторами являются сложность и стоимость кодера и декодера. Кодер Уровня I обеспечивает высококачественный звук при скорости цифрового потока 384 кбит / с на стереопрограмму. Уровень II требует более сложного кодера и несколько более сложного декодера, но обеспечивает лучшее сжатие « прозрачность » канала достигается уже при скорости 256 кбит / с. Он допускает до 8 кодирований / декодирований без заметного ухудшения качества звука. В основу алгоритма Уровня II положен популярный в Европе формат MUSICAM.

Стандарт MPEG :03 ММТ *** Лекция 5*** Звук Самый сложный Уровень III включает все основные инструменты сжатия : полосное кодирование, дополнительное ДКП ( дискретное косинусное преобразование ), энтропийное кодирование, усовершенствованную ПАМ ( психоакустическую модель слуха ). За счет усложнения кодера и декодера он обеспечивает высокую степень компрессии - считается, что « прозрачный » канал формируется на скорости 128 кбит / с, хотя высококачественная передача возможна и на более низких скоростях.

Стандарт MPEG :03 ММТ *** Лекция 5*** Звук Уровень II вошел составной частью в европейские стандарты спутникового, кабельного и наземного цифрового ТВ вещания, в стандарты звукового вещания, записи на DVD. Уровень III ( его еще называют МР -3) нашел широкое применение в цифровых сетях с интегральным обслуживанием (ISDN) и в сети Интернет. Подавляющее большинство музыкальных файлов в сети записаны именно в этом стандарте.

Кодер первого и второго уровней Рассмотрим более подробно работу кодера первого уровня ( рис 4.4). Блок фильтров ( БФ ) обрабатывает одновременно 384 отсчета звуковых данных и распределяет их с соответствующей субдискретизацией в 32 полосы, по 12 отсчетов в каждой полосе с частотой дискретизации 48/32 =1,5 кГц. Длительность кадра при частоте дискретизации 48 кГц составляет 8 мс :03 ММТ *** Лекция 5*** Звук Рис Структурная схема звукового кодера MPEG-1 первого и второго уровней ( пунктиром показан модуль быстрого преобразования Фурье ( БПФ ), добавляемый на втором уровне )

Кодер первого и второго уровней Упрощенная психоакустическая модель оценивает только частотное маскирование по наличию и « мгновенному » уровню компонентов сигнала в каждой полосе. По результатам оценки для каждой полосы назначается как можно более грубое квантование, но так, чтобы шум квантования не превышал порога маскирования. Масштабирующие множители имеют разрядность 6 бит и перекрывают динамический диапазон 120 дБ с шагом 2 дБ. В цифровом потоке передаются также 32 кода распределения битов. Они имеют разрядность 4 бита и указывают на длину кодового слова отсчета в данной полосе после переквантования :03 ММТ *** Лекция 5*** Звук -4 19

Декодер первого и второго уровней В декодере ( рис. 4.5) отсчеты каждой частотной полосы выделяются демультиплексором и поступают на перемножитель, который восстанавливает их первоначальный динамический диапазон. Перед этим восстанавливается исходная разрядность отсчетов - отброшенные в квантователе младшие разряды заменяются нулями. Коды распределения битов помогают демультиплексору разделить в последовательном потоке кодовые слова, принадлежащие разным отсчетам и передаваемые кодом с переменной длиной слова. Затем отсчеты всех 32 каналов подаются на синтезирующий БФ, который проводит повышающую дискретизацию и расставляет отсчеты должным образом во времени, восстанавливая исходную форму сигнала :03 ММТ *** Лекция 5*** Звук Рис Структурная схема звукового декодера MPEG-1 первого и второго уровней

Кодер второго уровня :03 ММТ *** Лекция 5*** Звук В кодере второго уровня устранены основные недостатки базовой модели полосного кодирования, связанные с несоответствием критических полос слуха и реальных полос блока фильтров ( БФ ), из - за чего в низкочастотных участках диапазона эффект маскирования практически не использовался. Величина кадра увеличена втрое, до 24 мс при дискретизации 48 кГц, одновременно обрабатываются уже 1152 отсчета (3 субкадра по 384 отсчета ). В качестве входного сигнала для ПАМ ( психоакустической модели слуха ) используются не полосные сигналы с выхода БФ, а спектральные коэффициенты, полученные в результате 512- точечного преобразования Фурье входного сигнала кодера. Благодаря увеличению и временной длительности кадра и точности спектрального анализа эффективность работы ПАМ возрастает.

Кодер третьего уровня :03 ММТ *** Лекция 5*** Звук Кодер Уровня III использует усовершенствованный алгоритм кодирования с дополнительным дискретным косинусным преобразованием ( ДКП ). Структурная схема кодера показана на рис Рис Структурная схема звукового кодера третьего уровня

Кодер третьего уровня :03 ММТ *** Лекция 5*** Звук Основной недостаток кодеров второго уровня - неэффективная обработка быстро изменяющихся переходов и скачков уровня звука - устраняется благодаря введению двух видов блоков дискретного косинусного преобразования ( ДКП ) - « длинного » с 18 отсчетами и « короткого » с 6 отсчетами. Выбор режима осуществляется адаптивно путем переключения оконных функций в каждой из 32 частотных полос. Длинные блоки обеспечивают лучшее частотное разрешение сигнала со стандартными характеристиками, в то время как короткие блоки улучшают обработку быстрых переходов. Для улучшения кодирования применяются также следующие усовершенствования.

Усовершенствования для улучшения кодирования : :03 ММТ *** Лекция 5*** Звук Неравномерное квантование ( квантователь возводит отсчеты в степень 3/4 перед квантованием для улучшения отношения сигнал - шум ; соответственно, декодер возводит их в степень 4/3 для обратной линеаризации ). В отличие от кодеров первого и второго уровней, на третьем уровне масштабирующие множители присваиваются не каждой из 32 частотных полос БФ, а полосам масштабирования - участкам спектра, не связанным с этими полосами и примерно соответствующим критическим полосам. Энтропийное кодирование квантованных коэффициентов кодом Хаффмана. Наличие « резервуара битов » - запаса, который кодер создает в периоды стационарного входного сигнала.

Кодер третьего уровня Кодер третьего уровня более полно обрабатывает стереосигнал в формате joint stereo (MS Stereo). Если кодеры нижележащих уровней работают только в режиме кодирования по интенсивности, когда левый и правый каналы в полосах выше 2 кГц кодируются как один сигнал ( но с независимыми масштабирующими множителями ), кодер третьего уровня может работать и в режиме « сумма - разность », обеспечивая более высокую степень сжатия разностного канала. Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшей скоростью :03 ММТ *** Лекция 5*** Звук -4 25

Кодер третьего уровня :03 ММТ *** Лекция 5*** Звук В рамках третьего уровня кодирование стереосигнала допустимо еще тремя различными методами : 1. Joint Stereo (MSftS Stereo) вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких скоростях. 2. Dual Channel - каждый канал получает ровно половину потока и кодируется отдельно как монофонический сигнал. Метод рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разные сигналы, например, текст на разных языках. 3. Stereo - каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому.

Стандарт MPEG-2

MPEG :03 ММТ *** Лекция 5*** Звук MPEG-2 это расширение MPEG-1 в сторону многоканального звука. Следствием совместимости MPEG-2 с MPEG-1 в части кодирования звука стало полное использование трехуровневой системы, разработанной в MPEG-1 для обработки звуковых данных кодерами стандарта MPEG-2. Различия между стандартами начинаются при переходе от двухканального звука, принятого за основу в MPEG-1, к многоканальному звуку, поддерживаемому в MPEG-2. MPEG-2 специфицирует различия режима передачи многоканального звука, в том числе пятиканальный формат, семиканальный звук с двумя дополнительными громкоговорителями, применяемыми в кинотеатрах с очень широким экраном, расширения этих форматов с низкочастотным каналом.

MPEG :03 ММТ *** Лекция 5*** Звук Таблица 4.1 Иерархия многоканальных звуковых систем согласно Рекомендации BS.775 Соответствующее расположение громкоговорителей показано в таблице 4.1. В данном случае в числителе дроби указывается число фронтальных каналов, в знаменателе - число каналов, излучаемых сзади.

Иерархия многоканальных звуковых систем :03 ММТ *** Лекция 5*** Звук -4 30

MPEG :03 ММТ *** Лекция 5*** Звук Одной из разновидностей многоканального звука является многоязычное звуковое сопровождение. Оно может осуществляться либо передачей отдельного цифрового потока для каждого языка, либо добавлением нескольких ( до 7) языковых каналов со скоростью 64 кбит / с к многоканальному потоку 384 кбит / с. Возможна передача дополнительных звуковых каналов для людей с ухудшением зрения и слуха ( с описанием сцены в первом случае и отдельным каналом диалогов во втором ).

MPEG :03 ММТ *** Лекция 5*** Звук Как же обеспечивается совместимость этих сложных многокомпонентных сигналов с относительно простым декодером MPEG-1? В кодере MPEG-2 сначала с помощью матрицы формируются комбинированный двухканальный сигнал, совместимый со стереосигналом MPEG-1, и набор вспомогательных сигналов, не совместимых с ним и служащих для восстановления многоканального сигнала в декодере MPEG-2 ( рис. 4.7, а ). При кодировании двухканальный сигнал укладывается в структуру пакетированного элементарного потока звука, совместимого с MPEG-1, и может прочитываться соответствующим декодером. Остальные компоненты после кодирования размещаются в других структурных единицах цифрового потока и доступны только декодеру MPEG-2.

MPEG-2 Рис.4.7. Обработка многоканального звукового сигнала в кодере и декодере MPEG-2: а ) кодер б ) декодер :03 ММТ *** Лекция 5*** Звук -4 33

Система улучшенного кодирования звука ААС :03 ММТ *** Лекция 5*** Звук Одной из лучших современных систем сжатия звука признана система ААС (Advanced Audio Coding - усовершенствованная система кодирования звука ), специфицированная в седьмой части стандарта ISO/IEC В отличие от других методов сжатия звуковых данных, принятых в MPEG-2, она не обладает свойством обратной совместимости - декодеры MPEG-1 не могут декодировать сигнал ААС.

Система улучшенного кодирования звука ААС :03 ММТ *** Лекция 5*** Звук В стандарте поддерживается широкий набор параметров и возможностей : частоты дискретизации от 8 до 96 кГц, моно - и стереосигналы, три профиля - Основной (Main), Упрощенный (LC - Low complexity), Масштабируемый (SSR - Scalable Sampling Rate). Одновременно может быть описано до 16 звуковых программ, состоящих из большого числа сигналов звука и данных ( до 48 основных, 15 низкочастотных, 15 многоязычных каналов, 15 потоков данных ).

Система улучшенного кодирования звука ААС :03 ММТ *** Лекция 5*** Звук Структурная схема звукового кодера формата ААС Основного профиля приведена на рис. 4.8.

Система улучшенного кодирования звука ААС :03 ММТ *** Лекция 5*** Звук На данный момент существуют пять разновидностей формата ААС : 1. Homeboy AAC; 2. AT&T а 2b ААС ; 3. Liquifier PRO AAC; 4. Astrid/Quartex ААС ; 5. AACPlus. Все эти модификации несовместимы между собой, имеют собственные кодеры / декодеры и неодинаковы по качеству.

Расширения файлов Advanced Audio Coding (AAC) :03 ММТ *** Лекция 5*** Звук aac незащищённый файл AAC без контейнера ;.mp4 файл AAC в контейнере MP4 ( Спецификация MPEG-4 Part 14 предусматривает упаковку в контейнер не только несколько аудио - потоков, но и несколько видео - потоков, а также несколько потоков субтитров ). Несмотря на то, что в спецификации MPEG-4 Part 14 ( Формат файла MP4) определено только одно расширение для контейнера.mp4, компания Apple использует контейнер для упаковки AAC- потоков, но использует расширения, не предусмотренные стандартом MPEG-4 Part 14:.m4a незащищённый файл AAC;.m4b файл AAC, поддерживающий закладки. Используется для аудиокниг и подкастов ;.m4p защищённый файл AAC. Используется для защиты файла от копирования при легальной загрузке собственнической музыки в онлайн - магазинах, подобных iTunes Store;.m4r файл рингтона, используемый в Apple iPhone.

Стандарт MPEG-4

:03 ММТ *** Лекция 5*** Звук В качестве средств компрессии звука в MPEG-4 (ISO/IEC ) используется комплекс нескольких стандартов кодирования звука : улучшенный алгоритм MPEG-2 ААС, алгоритм TwinVQ, а также алгоритмы кодирования речи HVXC и CELP. Кроме того, MPEG-4 предусматривает множество механизмов обеспечения масштабируемости и предсказания. Однако в целом, стандарт MPEG-4 ААС, предусматривающий правила и алгоритмы кодирования звука, является, в общем, продолжением MPEG-2 AAC. MPEG-4 - аудио предлагает широкий перечень приложений, которые покрывают область от простой речи до высококачественного многоканального звука, и от естественных до синтетических звуков.

MPEG :03 ММТ *** Лекция 5*** Звук MPEG-4 поддерживает высокоэффективную презентацию следующих звуковых объектов : Речь. Кодирование речи может производиться при скоростях обмена от 2 до 24 кбит / с. Низкие скорости передачи, такие как 1,2 кбит / с, также возможны, когда разрешена переменная скорость кодирования. Синтезированная речь. TTS- кодировщики (Text-to-speech - текст в голос ) с масштабируемой скоростью в диапазоне от 200 бит / с до 1,2 кбит / с, которые позволяют использовать текст или текст с интонационными параметрами ( вариация тона, длительность фонемы, и т. д.), в качестве исходных данных для генерации синтетической речи. При этом выполняются следующие функции :

MPEG :03 ММТ *** Лекция 5*** Звук синтез речи с использованием интонации оригинальной речи, управление синхронизацией губ и фонемной информации ; 2. трюковые возможности : пауза, возобновление, переход вперед / назад ; 3. международный язык и поддержка диалектов для текста ( т. е. можно сигнализировать в двоичном потоке, какой язык и диалект следует использовать ); 4. поддержка спецификации возраста, пола, темпа речи говорящего ; 5. поддержка передачи меток анимационных параметров лица FAP (facial animation parameter - параметры анимации лица ).

Метод кодирования MPEG-4 CELP :03 ММТ *** Лекция 5*** Звук Метод кодирования MPEG-4 CELP предназначен для обработки речевых сигналов. На практике применяются в основном три основных класса кодеров : кодеры формы, вокодеры и гибридные кодеры. Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. К кодерам формы относятся кодеры с импульсно кодовой модуляцией ( ИКМ ), кодеры с дифференциальной ИКМ ( ДИКМ ), адаптивной дифференциальной ИКМ ( АДИКМ ) и др. Системы передачи с подобным типом кодеров обеспечивают хорошее качество воспроизведения речевых сигналов. Однако, эти кодеры малоэффективны с точки зрения снижения скоростей передачи цифровых сигналов.

Метод кодирования MPEG-4 CELP :03 ММТ *** Лекция 5*** Звук Вокодеры ( от английских слов «voice» - голос и «coder» - кодирующее устройство ) обеспечивают значительно большее снижение скоростей передачи речевых сигналов. Сжатие на передающей стороне производится в анализаторе, выделяющем из речевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых комбинаций. На приемной стороне с помощью местных источников сигналов, управляемых с использованием принятой информации, синтезируется речевой сигнал.

Метод кодирования MPEG-4 CELP :03 ММТ *** Лекция 5*** Звук Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вокодер преобразует входной сигнал в некий другой, похожий на исходный. При этом измеряемые характеристики используются для подстройки параметров вокодера в соответствии с принятой моделью речевого сигнала. Именно эти параметры и передаются на декодер приемника, который по ним восстанавливает ( синтезирует ) речевой сигнал. При этом оценка качества воспроизведения речи ( разборчивость, естественность, узнаваемость и др.) производится с применением субъективно - статистических экспертиз.

Метод кодирования MPEG-4 CELP :03 ММТ *** Лекция 5*** Звук Наибольшее распространение получили параметрические вокодеры, в которых из речевого сигнала выделяют два типа параметров : параметры, характеризующие огибающую спектра речевого сигнала ( фильтровую функцию ); параметры, характеризующие источник речевых колебаний ( генераторную функцию ): частоту основного тона, ее изменения во времени, моменты появления и исчезновения основного тона, шумового сигнала и др. В вокодерах с линейным предсказанием (LPC - Linear Predictive Coding) при анализе речевого сигнала в передающем устройстве определяются коэффициенты предсказания, а в приемном устройстве на основе этих коэффициентов с помощью рекурсивного цифрового фильтра синтезируется эквивалент голосового тракта.

Метод кодирования MPEG-4 HVXC :03 ММТ *** Лекция 5*** Звук MPEG-4 HVXC обеспечивает различные категории устойчивости к ошибкам и может применяться в каналах передачи, подверженных влиянию ошибок. Объект HVXC, устойчивый к ошибкам (ER) поддерживается средствами параметрического кодирования голоса (ER HVXC), которые предоставляют режимы с фиксированными скоростями обмена (2...4 кбит / с ) и режим с переменной скоростью передачи ( более 2 кбит / с, более 4 кбит / с ), в рамках масштабируемой и не масштабируемой схем. Функциональность изменения тона и скорости при декодировании поддерживается для всех режимов. Кодировщик речи ER HVXC ориентирован на приложения от мобильной и спутниковой связи до IP- телефонии и голосовых баз данных.

Стандарт MPEG-7

:03 ММТ *** Лекция 5*** Звук Аудио MPEG-7 FCD имеет пять технологий : 1. структура описания звука, которая включает в себя масштабируемые последовательности, дескрипторы нижнего уровня и униформные сегменты тишины ; 2. средства описания тембра музыкального инструмента ; 3. средства распознавания звука ; 4. средства описания голосового материала и 5. средства описания мелодии. MPEG-7 Audio устанавливает базис для совместимости всех приложений, которые могут быть созданы в рамках данной системы.

Метод сжатия звука Ogg Vorbis :03 ММТ *** Лекция 5*** Звук В июле 2002 года миру был официально представлен оригинальный формат сжатия звука, именуемый Ogg Vorbis. Спонсором проекта на первом этапе была компания iCast, транслировавшая и распространявшая музыку через Интернет. В случае успеха и перехода на новый формат она могла бы сэкономить на отчислениях, но к сожалению, до выхода своего детища компания разорилась. Итак, что же представляет собой новый формат ? OggVorbis - это самый молодой формат из всех конкурентов МРЗ, разработан группой Xiphophorus и является всего лишь небольшой частью из мультимедиа проекта OggSquish, в котором будут помимо форматов аудиосжатия еще и кодеки видеокомпрессии. Впрочем, это все в будущем, а пока OggVorbis - единственный реально существующий формат из этого семейства.

Методы сжатия звука

Метод сжатия звука Ogg Vorbis :03 ММТ *** Лекция 5*** Звук OggVorbis принадлежит к тому же типу форматов аудиосжатия, что и МРЗ, AAC, VQF, РАС, QDesign AIFF и WMA, т. е. к форматам сжатия с потерями. Психоакустическая модель, используемая в OggVorbis по принципам действия близка к МРЗ и иже с ними, но и только - математическая обработка и практическая реализация этой модели в корне отличается, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников.

OggVorbis урок маркетинга :03 ММТ *** Лекция 5*** Звук Главное неоспоримое преимущество формата OggVorbis это его полная открытость и бесплатность. Казалось бы, что тут удивительного ? WMA тоже бесплатен и Astrid/Quartex... Да это так, но авторам этих форматов и в голову не пришло опубликовать исходные коды своих разработок, a Xiphophorus именно это и сделала. OggVorbis создается в рамках проекта GNU и полностью подчиняется GNU GPL ( генеральная публичная лицензия ). А это означает, что формат совершенно открыт для коммерческого и некоммерческого использования, его коды можно модифицировать безо всяких ограничений, группа разработчиков оставляет за собой лишь право утверждать новые спецификации формата.

Формат OggVorbis :03 ММТ *** Лекция 5*** Звук Формат OggVorbis прочился разработчиками в преемники МРЗ. И для этого есть все основания. OggVorbis содержит не только все те компоненты, которые обеспечили популярность МРЗ : отличное качество, малый размер, бесплатность для конечного пользователя, потоковость, но и ряд преимуществ, которых у МРЗ нет : бесплатность для разработчиков, отсутствие лицензионных платежей, более высокая частота дискретизации и значительно большее число поддерживаемых каналов. Именно благодаря открытости формата об OggVorbis удалось узнать то, что не удавалось для всех других форматов ( разве что, кроме МрЗ ) - как он работает. Все остальные конкуренты МРЗ тщательно скрывают внутренние алгоритмы компрессии, и лишь OggVorbis выставляет их на показ.

Формат OggVorbis :03 ММТ *** Лекция 5*** Звук В OggVorbis главный акцент сделан на анализе маскирующего влияния сигналов звучащих одновременно. Эта часть сделана гораздо более изощренно и эффективно чем у МРЗ. В ходе анализа находятся сильные сигналы и сигналы, которые маскируются этими сигналами, т. е. находятся в своеобразной звуковой « тени ». Затем рассчитывается среднее время маскировки для каждого из маскируемых сигналов. Все сигналы, лежащие в области звуковой « тени » и попадающие в расчетное время маскировки помечаются на удаление.

Формат OggVorbis :03 ММТ *** Лекция 5*** Звук И напоследок несколько слов о перспективах формата OggVorbis. Формат Ogg Vorbis современное и наиболее оптимальное решение на рынке форматов аудио компрессии. Если следить за динамикой развития формата, можно легко заметить, что у него есть будущее. Большое количество разработчиков со всего мира постоянно развивают формат, доводя его до совершенства. Казалось бы, все, что можно было сделать, уже сделано. Однако это не так. Все еще не раскрыт весь потенциал формата.

Метод сжатия звука MusePack :03 ММТ *** Лекция 5*** Звук Естественно, Ogg Vorbis является не единственной некоммерческой разработкой такого рода. Энтузиасты продолжали и продолжают делать попытки создания альтернативных качественных аудиокодеков. Кодек MPEGplus (MPEG+) был позже переименован в MusePack (MPC) из - за проблем, которые появились у автора кодека в связи с тем, что название последнего содержало в себе аббревиатуру «MPEG». MusePack это еще одна разновидность сжатия звука с потерями сродни МРЗ. Точнее, MusePack не является продолжением MPEG-1 Layer III, а лишь, как и МРЗ, берет свое начало в MPEG-1 Layer II.

Метод сжатия звука MusePack :03 ММТ *** Лекция 5*** Звук MusePack создан « в домашних условиях » и разрабатывался ( ется ) в основном двумя людьми : Andre Buschmann и Frank Klemm. Кодек, как уже было сказано, базируется на MPEG-1 Layer II, отсюда его направленность на кодирование преимущественно на более высоких скоростях, нежели МРЗ. В то же время, кодек является совершенно самостоятельной разработкой. Этот формат позиционируется своими создателями как преемник целой плеяде устаревающих аудиоформатов, начиная с Real Audio и заканчивая MPEG Layer III. Но, похоже, что WMA может сменить не только устаревающие форматы, но и относительно новые. Вот несколько фактов.

Формат Windows Media Audio (WMA) :03 ММТ *** Лекция 5*** Звук Низкоскоростная версия WMA по качеству ощутимо превосходит Real Audio. Соотношение размер / качество для WMA в раза выше, чем аналогичный параметр у Real Audio. Более того, WMA превосходит по качеству относительно новый формат QDesign AIFF. Так, при максимальной для QDesignAIFF скорости 48 кбит / с, аудиофайлы WMA имеют гораздо меньше искажений и потерь. Кроме того, формат WMA бесплатен, a QDesign AIFF стоит порядка 20 долларов. WMA со скоростью 64 кбит / с лучше МРЗ 128 кбит / с или по крайне мере обладает тем же качеством. Кодек позволяет легко перекодировать из МРЗ в WMA с любой скоростью.

Формат сжатия звука QDesign AIF :03 ММТ *** Лекция 5*** Звук Этот формат аудиосжатия был разработан компанией QDesign и впоследствии был замечен и активно поддержан концерном Apple/Macintosh. Рождение формата сопровождалось многочисленными рекламно - сенсационными заявлениями компании - разработчика о том, что ими достигнуто CD- качество при небывало низкой скорости потока 48 кбит / с, т. е. этот формат должен был обеспечивать степень сжатия исходной композиции примерно в 100 раз без потери качества !

Формат сжатия звука QDesign AIF :03 ММТ *** Лекция 5*** Звук Первая реакция - недоверие. Конечно, научно - технический прогресс творит чудеса, но не так же быстро и не до такой же степени ! Некоторые новостные интернет - сайты вроде бы подтвердили рекламные заявления QDesign. Например, довольно таки солидный сайт опубликовал несколько графиков АЧХ, согласно которым аудиокомпозиции сжатые QDesign.AIF со скоростью 48 кбит / с отличаются от исходной CD- композиции не более, чем на 3 дБ. Кроме того, еще свежи в памяти воспоминания о лихом взлете формата МРЗ, а ведь в свое время коэффициент сжатия аудиоинформации 1:12 тоже казался чем - то невероятным.

Формат сжатия звука QDesign AIF :03 ММТ *** Лекция 5*** Звук Справедливости ради стоит отметить, что QDesign AIF с максимально возможной скоростью < 48 кбит / с все же лучше, чем МРЗ, ААС, РАС и VQF с этой же шириной потока и безусловно лучше Real audio. Да, этот формат годится только для сетевого радио или для ознакомления с композицией, чтобы впоследствии закачать ее в виде более громоздких, но зато и более качественных файлов в форматах МРЗ, ААС, VQF... Зато на один CD- диск можно разместить около 100 часов музыки в этом формате, если только кто - то захочет ее слушать.

Формат сжатия звука РАС :03 ММТ *** Лекция 5*** Звук Название формата РАС расшифровывается как perceptual audio coding, что на русский язык переводится плохо, так слово perceptual означает восприятие. Поэтому вариантов перевода много, но наиболее благозвучным является « аудиокодирование, основанное на восприятии ». Данный формат был разработан фирмой Lucent Technologies при мощной инвестиционной поддержке компании Bell Labs, которую интересовали системы сжатия голосовой аудиоинформации передаваемой по цифровым телефонным сетям. Некоторые высокоскоростные многоканальные цифровые телефонные сети США и Канады используют для сжатия аудиоинформации алгоритмы, основанные на разработках РАС. **********************************************************

Аббревиатуры :03 ММТ *** Лекция 5*** Звук ПАМ - психоакустическая модель слуха БФ - блок фильтров ИКМ - импульсно кодовая модуляция ИКМ ( ДИКМ ) - дифференциальная импульсно кодовая модуляция АДИКМ - адаптивная дифференциальная импульсно кодовая модуляция БПФ - быстрое преобразование Фурье ДКП - дискретное косинусное преобразование МДКП - модифицированное дискретное косинусное преобразование