1 Технологии мультимедиа Москин Николай Дмитриевич доцент, к.т.н. математический факультет Петрозаводский государственный университет.

Презентация:



Advertisements
Похожие презентации
Звук, который мы слышим,- это звуковая волна с непрерывно меняющейся интенсивностью и частотой (аналоговый сигнал). Человек воспринимает звуковые волны.
Advertisements

Цифровой звук Мультимедиа технологии. Цифровое аудио Запись / воспроизведение звука с использованием цифрового сигнала импульсно - кодовой модуляции (Pulse.
Кодирование и обработка звуковой информации. Звук – это волна (колебания воздуха или др. среды) с непрерывно меняющейся амплитудой и частотой.
Кодирование и обработка звуковой информации.. Звук - это волна с непрерывно меняющейся амплитудой и частотой Интенсивность громкость Частота высота тона.
С начала 90-х годов ПК получили возможность работать со звуковой информацией. Каждый ПК, имеющий звуковую плату, микрофон, наушники или колонки, может.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
КОДИРОВАНИЕ И ОБРАБОТКА ЗВУКОВОЙ ИНФОРМАЦИИ. ЧТО ТАКОЕ ЗВУК? Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно.
Тема: Двоичное кодирование звуковой информации. Глава: Кодирование и обработка графической и мультимедийной информации Учебник: Н.Угринович. Базовый курс.
Описание формата МР 3 MP3 – это наиболее популярный формат хранения и передачи информации в цифровой.
1.Звуковая информация 2. Временная дискредитация звука 3. Частота дискредитации 4. Глубина кодирования звука 5. Качество оцифрованного звука 6. Звуковые.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
Звук - в широком смысле - колебательное движение частиц упругой среды, распространяющееся в виде волн в газообразной, жидкой или твердой средах.
Кодирование и обработка звуковой информации 9 класс. Учитель: Бычкова О.В.
Кодирование звуковой информации Информатика и ИКТ 10 класс Гимназия 1 г. Новокуйбышевска Учитель информатики: Красакова О.Н.
План-конспект урока по информатике и икт (9 класс) по теме: Кодирование и обработка звуковой информации. Создание звукового клипа
Урок информатики в 9 классе. Звук (звуковые волны) – это упругие волны, способные вызвать у человека слуховые ощущения. От 20 колебаний в сек. до
Звук – это волновые колебания в упругой среде. Частота Амплитуда Измеряется в Гц. 1Гц = 1 колебание/сек Человек воспринимает звуки в диапазоне от 16 Гц.
Методики первичной обработки оперативных фонограмм лекция по дисциплине «СПЕЦИАЛЬНЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ПРАВООХРАНИТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ»
Кодирование и обработка звуковой информации. Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с.
Кодирование и обработка звуковой информации. Звук – это волна с непрерывно меняющейся амплитудой и частотой.
Транксрипт:

1 Технологии мультимедиа Москин Николай Дмитриевич доцент, к.т.н. математический факультет Петрозаводский государственный университет

2 §7 Звук Звук, в широком смысле – упругие волны, распространяющиеся в среде и создающие в ней механические колебания; в узком смысле – субъективное восприятие этих колебаний органами чувств человека. Как и любая волна, звук характеризуется амплитудой и частотой. Считается, что человек слышит звуки в диапазоне частот от 16 Гц до Гц (20 к Гц).

3 Форма сигнала Звук ниже диапазона слышимости человека называют инфразвуком, выше, до 1 ГГц – ультразвуком, от 1 ГГц и более – гиперзвук- ком (1 Гц – 1 колебание в секунду). Форму сигнала любого звука можно изобразить, построив зависимость его амплитуды от времени.

4 Примеры: инструментальная музыка Диджериду – музыкальный духовой инструмент аборигенов Австралии Скрипка, виолончель и фортепиано

5 Примеры: естественные звуки Журчащий ручей Море

6 Уровень звукового давления Уровень звукового давления (громкость) измеряется в децибелах (дБ – десятая часть бела) и означает меру отношения выбранного опорного уровня на логарифмической шкале к величине, испытываемой на самом деле. Если мощность P 1 в 2 раза больше начальной мощности P 0, то это соответствует 3 дБ (1:4 – 6 дБ, 1:10 – 10 дБ, 1:1000 – 30 дБ).

7 Мощность и интенсивность звука Мощность звука – количество энергии, пере- носимое звуковой волной через рассмотри- воемую поверхность в ед. времени (Вт). Интенсивность звука – среднее количество энергии, переносимое звуковой волной за 1 секунду через пространство с площадью сечения 1 м 2, перпендикулярному направлению движения.

8 Уровень звукового давления 170 дБ - реактивный двигатель 130 дБ - оркестр из 75 инструментов 120 дБ - большой обрубочный молоток 100 дБ - автомобиль на магистрали 80 дБ - игра на пианино 60 дБ - в большом универмаге 40 дБ - работа компьютера 30 дБ - очень тихий шепот

9 Акустика Акустика (от греч. akustikos – слуховой, слушающий) – область физики, исследующая упругие колебания и волны (в газах, жидкостях и твердых телах) от самых низких частот (от 0 Гц) до предельно высоких ( Гц), их взаимодействие с веществом и применение этих колебаний (волн).

10 Оцифровка звука. Дискретизация (семплирование) Чтобы сохранить полный диапазон слышимых частот, минимальной частотой дискретизации (или частотой семплирования) выбирается значение 40 к Гц (40000 измерений звука в секунду). CD (Compact Disc): 44,1 к Гц;

11 Оцифровка звука. Дискретизация (сэмплирование) Если приемлема более низкая частота дискретизации, могут использоваться делители 44,1 к Гц (22,05 к Гц, 11,025 к Гц); DAT (Digital Audio Tape – цифровая аудиолента): до 48 к Гц; DVD-Audio: 88,2; 96; 176,4; 192 к Гц; Super Audio CD (SACD): Гц = 64*44100 Гц; DSD с удвоенной частотой дискретизации: Гц.

12 Оцифровка звука. Квантование Количество уровней квантования обычно выбирается из соображений удобного количества битов: 16 бит, уровней квантования Недостаточная дискретизация и квантование

13 Аналогово-цифровой преобразователь Аналогово-цифровой преобразователь (АЦП, Analog-to-digital converter, ADC) – устройство, преобразующее входной аналоговый сигнал в дискретный код (цифровой сигнал). Для 24 бит характерны высокие требования к точности схем АЦП.

14 Добавление псевдослучайного шума Некоторые характеристики АЦП могут быть улучшены добавлением к входному сигналу псевдослучайного шума (dithering) небольшой амплитуды.

15 Размер оцифрованного аудио Пусть r - частота дискретизации (Гц), а s - размер выборки (бит). Тогда каждая секунда оцифрованного звука будет занимать rs/8 байт; Для CD-качества: r=44100 Гц, s=16 бит, поэтому каждая секунда занимает 86 Кбайт, а каждая минута – примерно 5 Мбайт.

16 Отсечение Отсечение – форма искажения сигнала: в некоторых точках амплитуда входного сигнала превышает максимальное значение, которое можно записать. Результат такого отсечения очень сильно режет слух.

17 Сжатие речи: нелинейное квантование Нелинейные уровни квантования: расстояние между высокими уровнями больше расстояния между низкими, поэтому тихие звуки представляются детальнее, чем громкие (значения увеличиваются логарифмически). (companding – compression + expanding)

18 Функция компандирования Существуют различные нелинейные функции компандирования. Важнейшие из них определены в рекомендациях ITU (International Telecommunica- tion Union). Рекомендация G.711 задает функцию, именуемую μ-характеристикой (μ-law), которая применяется в Северной Америке и Японии: y = lg(1+ μx)/lg(1+ μ) при х 0. В телефонии используется μ=255.

19 Функция компандирования В Европе, России и других странах мира используется, определенная в рекомендациях ITU, A- характеристика (A-law): y=Ax/(1+lgA), при |х|<1/A y=(1+lg(Ax))/(1+lgA), при 1/A|x|<1 Часто используется значение A=87,6.

20 Импульсно-кодовая модуляция Импульсно-кодовая модуляция (PCM, Pulse Code Modulation) – мгновенные значения аналогового сигнала измеряются через равные промежутки времени и округляются до ближайшего уровня. Дифференциальная (или дельта) импульсно- кодовая модуляция (ДИКМ; Differential PCM) кодирует сигнал в виде разности между текущим и предыдущим значением (снижает количество битов примерно на 25%).

21 Импульсно-кодовая модуляция

22 АДИКМ Другой важной техникой, первоначально разработанной для телекоммуникационной промышленности, является адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ; Adaptive Differential Pulse Code Modulation – ADPCM). Это разновидность ДИКМ, где дополнительно увеличивается сжатие с помощью динамического изменения шага, используемого для представления квантованных разностей (большие разности квантуются с использованием больших шагов и наоборот).

23 G.723 и G.726 G.723 – стандарт кодирования речи, принятый ITU-T в 1988 году, с использованием АДИКМ при скоростях 24 и 40 кбит/с (в настоящее время считается устаревшим и замещен G.726); G.726 также является стандартом ITU-T, использующий АДИКМ, со скоростями 16, 24, 32 и 40 кбит/с (наиболее часто среди них - 32 кбит/с). В первую очередь применяется на международных линиях связи в телефонных сетях.

24 Сжатие на основе восприятия Сжатие с потерями: определение данных, не влияющих на восприятие сигнала и их отбрасывание. Порог слышимости – это минимальная величина звукового давления, при которой звук данной частоты может быть воспринят ухом человека. Этот порог нелинейно зависит от частоты.

25 Порог слышимости

26 Сжатие на основе восприятия Маскировка – модификация порога кривой слышимости в окрестности громкого тона (т.е. громкие тона могут «заглушать» более тихие, если они звучат одновременно). На рисунке: поднявшийся фрагмент (кривая маскировки) нелинеен и асимметричен (быстрее растет, чем падает). Любой звук, находящийся внутри кривой маскировки, будет не слышен.

27 Маскировка звука

28 Алгоритм сжатия Сначала сигнал расщепляется на полосы частот (обычно 32 полосы). Определяется порог маскировки для каждой полосы на основе среднего уровня сигнала и психо-акустической модели (математическое описание восприятия звуков ухом и мозгом). Если сигнал в полосе целиком опускается ниже порога маскировки, полоса отбрасывается. В противном случае сигнал квантуется с использованием меньшего количества битов.

29 Сжатие MPEG Лучшие разработанные алгоритмы связаны с сжатием аудио в контексте стандартов MPEG. Стандарт MPEG-1 задает три уровня сжатия аудио. MPEG-1 уровня 3 (MP3), предлагает сжатие с коэффициентом примерно 10:1, сохраняя высокое качество. В MP3 сжатый аудио поток расщепляется на фрагменты (кадры) в 1/100 сек. Каждый из них имеет заголовок, где указываются скорость передачи, частота дискретизации и другие параметры.

30 Битрейт (скорость передачи) Постоянный битрейт (CBR, Constant Bitrate) - каждая секунда аудио кодируется одинаковым числом бит; Переменный битрейт (VBR, Variable Bitrate) - фрагменты, которые трудно сжимать, кодируются с большей скоростью передачи, чем фрагменты, которые сжимаются легко; Усредненный битрейт (ABR, Average Bitrate) – битрейт (в кбит/с, kbps) задается пользователем, а программа варьирует его в некоторых пределах.

31 Режимы MP3 Stereo – каналы исходного стереосигнала кодируются независимо друг от друга; Mono – одноканальное кодирование; Joint-Stereo – объединенное стерео. Левый и правый каналы могут преобразоваться в сумму (L+R) и разность (L-R). MP3-данные могут записываться в других типах файлов (аудиотреки в QuickTime, звук в Flash и т.д.)

32 Формат WMA WMA – альтернативный формат, созданный в 2000 году корпорацией Microsoft для Windows Media Player. Достоинства WMA проявляются только на низких битрейтах (так, звук с качеством 128 Кбит/с звучит лучше, чем в MP3), а вот на высоких битрейтах преимущества кодека исчезают, WMA «заваливает» большую часть частот выше 18 к Гц.

33 Спектрограмма несжатой звуковой дорожки (редактор Adobe Audition)

34 Спектрограмма звуковой дорожки, сжатой в WMA с битрейтом 192 kbps

35 AAC Стандарт MPEG-2 определяет аудио кодек Advanced Audio Coding (AAC). Кодек AAC был встроен в MPEG-4, где он является основой для кодирования природного звука. В отличие от MP3, AAC не имеет обратной совместимости с предыдущими стандартами MPEG, зато разработчики AAC получили большее сжатие при меньших скоростях передачи данных, чем у MP3.

36 Форматы аудио OGG Vorbis – открытый формат аудиосжатия, появился в 2002 году от группы независимых разработчиков. Психоакустическая модель близка к MP3, но реализация сильно отличается; AIFF (Audio Interchange File Format) разработан в 1988 году, чаще всего используется в компьютерах Apple Macintosh; WAV (англ. wave – волна) – разработан в 1991 году, чаще всего используется в ОС Windows.

37 Форматы потокового аудио Потоковое аудио похоже на широковещательное радио, т.е. звук поставляется через сеть и воспроизводится по мере поступления, без предварительной записи на компьютере пользователя. Форматы потокового аудио: RealAudio от Real Networks; Потоковая передача QuickTime; Аудио в формате Windows Media.

38 MIDI MIDI (Musical Instruments Digital Interface – цифровой интерфейс музыкальных инструментов) – стандарт для связи между электронными музыкальными инструментами и таким музыкальным программным обеспечением, как секвенсоры (цифровые синтезаторы). Файлы MIDI – это средства музыкального сообщения, они компактнее обычных аудиоданных.

39 Сообщения MIDI Сообщение MIDI – это команда, контролирующая некоторый аспект звучания инструмента. Байт состояния указывает тип сообщения, за ним следуют один-два байта данных, в которых содержится значение параметра. Например: сообщение «включить ноту» («note on») + номер ноты (0…127) + сила звука.

40 Сообщения MIDI Байты состояния и данных в потоке MIDI-команд различаются старшим битом. Если некоторая последовательность сообщений имеет одинаковый байт состояния, то во всех сообщениях, начиная со второго, его можно опустить. Данная схема называется текущим состоянием (running status).

41 Спецификация General MIDI Обычно инструменты, контролируемые MIDI (синтезаторы и самплеры), предлагают набор голосов, которые ассоциируют ноты с конкретными звуками. С помощью сообщения MIDI «смена программы» («program change») со значением от 0 до 127 выбирается новый голос. General MIDI – дополнение к стандарту MIDI, в котором задаются 128 стандартных голосов.

42 Номера голосов General MIDI Название Инструмент или звук 1Acoustic Grand Piano Акустический рояль 2Bright Acoustic Piano Акустический рояль с более ярким звуком 3Electric Grand Piano Электрический рояль 4Honkey-tonk Piano Расстроенное пианино 5Electric Piano 1Электрическое пианино 1 ………

43 Номера голосов General MIDI Название Инструмент или звук ……… 41Violin Скрипка 42Viola Альт 43Cello Виолончель 44Contrabass Контрабас, игра смычком 45Tremolo strings Скрипичное тремоло ………

44 Программы для работы со звуком Cakewalk Sonar Профессиональный многодорожечный секвенсор компании Sonar (до 2008 года Twelve Tone Systems), пользуется популярностью у профессионалов. Поддерживает до 64 аудиодорожек и MIDI, 64 канала звуковых эффектов. Cubase VST Универсальный и сложный профессиональный секвенсор фирмы Steinberg. Имеет большее количество способов просмотра и манипулирования музыкой, чем какая-либо другая программа. Logic Audio Platinum Профессиональный секвенсор фирмы Emagic. Имеет 128 аудиодорожек и неограниченное количество MIDI. Он позволяет записывать звук и выполнять его цифровую обработку.

45 Программы для работы со звуком Band in Box Профессиональный аранжировщик фирмы PGmusic. Позволяет создавать импровизации в различных стилях от блюза до техно. Sound Forge Программа Sound Forge является одним из лидеров среди звуковых редакторов. Она обладает мощными функциями редактирования, позволяет встраивать любые подключаемые модули, поддерживающие технологию DirectX, имеет удобный современный интерфейс. Akoff Music Composer Программа распознает мелодию, поступающую на микрофон или записанную в WAV-файле, и переводит ее в формат MIDI.

46 Программы для работы со звуком Adobe Audition (бывшая CoolEdit Pro) Профессиональная студия звукозаписи фирмы Adobe Systems. Она позволяет записывать звук через звуковую карту от микрофона, CD-проигрывателя или другого источника, считывать и записывать файлы в формате MP3, редактировать полученные звуковые файлы и добавлять в них разнообразные эффекты. WaveLab Стереоредактор фирмы Steinberg входит в группу лидеров среди звуковых редакторов. Он обладает множеством эффектов, обеспечивает анализ спектров, имеет возможность работы со встроенными подключаемыми модулями DirectX, поддерживает многие форматы звуковых файлов, в том числе и MP3. Большой массив звуковых файлов можно объединить в базу данных (database).

47 Программа Cakewalk Pro Audio 9