^ Вверх
Статьи / Теория и практика

Меняем формат!

Не для кого не секрет, что самым популярным форматом сжатия музыки является mp3, ведь он используется везде: в магнитофонах, mp3/CD плеерах, магнитолах и конечно же в компьютерах. У него приемлемое сочетание объём /качество. Но помимо mp3 существует менее известные форматы – Windows Media Audio, OGG Vorbis, Advanced Audio Codec и другие. В этом материале мы рассмотрим и сравним несколько таких форматов.

Немного о форматах

MP3 / MP3 Pro.
Для начала разберемся, какие преимущества есть у mp3 кодера и его разновидности – mp3 pro. Разделим процесс сжатия на 3 этапа:
1. Быстрое преобразование исходного сигнала (фрейма) по методу Фурье (FFT). FFT – это процесс, представляющий исходный сигнал в виде суммы синусоид. Поэтому вместо того чтобы хранить волны в каждом сэмпле, остаётся запомнить только значение амплитуд (Ai) и длин волн (li). Обратное преобразование невозможно, сигнал можно восстановить только приближенно, с потерями.
2. Психоакустическая обработка, задачей которой является выбрать и вырезать из звукового потока информацию, не воспринимаемую человеческим ухом. Вот, тут-то и начинаются самые сложные вычисления, не щадящие качество звучания: в отличие от зрительного восприятия слух намного чувствительнее к различным искажениям и неточностям.
3. Применение математических алгоритмов сжатия. Во время этой операции происходят только числовые преобразования, позволяющие представить конечную информацию в более компактном виде. Преобразования Фурье известны давно и ими не ограничиваются разработчики «кодеров» (программ для сжатия музыки), поэтому появляются новые методики сжатия сигнала за счёт усовершенствования психоакустической модели кодирования. Эти методы основываются на особенностях восприятия звука человеком. Так если сначала подать громкий звук на частоте 800 Гц, то более тихий звук на частоте 1000 Гц уже не будет фиксироваться слухом. Также в модели используется явление снижения чувствительности на период 5-100 миллисекунд после возникновения резкого звука, например взрыва или выстрела.

У mp3 есть ряд неоспоримых преимуществ перед другими форматами - много настроек компрессии, в том числе применение переменного битрейта (variable bit rate), удобные тэги (tags), большое количество плееров воспроизводящих музыку в формате mp3, возможность воспроизводить в потоковом режиме.

В июле 2001 года компанией Coding Technologies вместе с Thomson Multimedia и институтом Fraunhofer, был выпущен кодек MP3Pro, как более мощное развитие старого mp3. Файлы, закодированные кодеком MP3Pro, можно воспроизводить по-прежнему в проигрывателях поддерживающие mp3, но качество при этом заметно хуже. Заметно чувствуется недостаток верхних частот, если не использовать специальный плеер. Это объясняется тем, что файлы MP3Pro имеют два звуковых потока, один из которых и воспроизводят обычные плееры, т.е. – MPEG-1 layer 3. Дело в том, что в MP3Pro используется новая технология – SBR (Spectral Band Replication), предназначенная для более эффективной компрессии и более качественной передачи верхнего частотного диапазона. Как уже было сказано выше, MP3Pro состоит из двух частей, первая с узким диапазоном частот – до 10 Кгц, а вторая с высокими частотами. Настройки MP3Pro более скромные, чем у его предшественника, кодировать файлы можно только до 96 kbps/Joint Stereo. Таким образом, добивается отличное сочетание объём / качество, даже при таком низком битрейте.

VBR и CBR.
При использовании CBR (Constant Bitrate) всем блокам назначается одинаковый объём (Bitrate). Из этого следует, то что, чем сложнее звуковой материал, тем менее качественно он будет звучать. При VBR (Variable Bitrate) каждому отдельному блоку задаётся свой размер. Битрейт, оптимально подходящий для кодирования данного участка композиции (фрейма), кодер выбирает самостоятельно на основе анализа сложности сигнала в каждом отдельном фрейме. Теоретически при таком достоинстве должен получиться mp3 файл с максимально оптимальным размером, но психоакустическая модель кодека не идеальна, и зачастую сложные блоки, требующие большего битрейта, его не получают.

Joint Stereo (совмещённое стерео).
Это алгоритм, позволяющий на основе сигнала одного аудиоканала и частичной информации о втором воссоздать исходный стереосигнал. При этом кодируется лишь общая составляющая каналов, а стерео на высоких частотах искусственно синтезируется путём умножения общего сигнала на известные значения мощности частотных участков. Это чем-то схоже с алгоритмом сжатия zip / rar, т.к. почти вдвое уменьшается объём, необходимый для записи аудио трека. Но, к сожалению, полное восстановление исходного стерео сигнала таким методом невозможно – при синтезе неизбежны ошибки, поэтому такой способ лучше использовать в простых, мало-инструментальных композициях или в фильмах.

OGG Vorbis.
Бесспорным плюсом OGG Vorbis, одного из наиболее перспективных форматов для компрессии аудиоданных, является то, что он изначально полностью открыт и бесплатен. Опубликована полная спецификация метода и формата, регулярно освещаются изменения и дополнения. Кодек поддерживает частоту дискретизации до 48 Кгц, скорость потока до 512 Кбит/с, до 255 каналов, позволяет хранить в файле вместе с композицией текстовую и графическую информацию. Звук в любом случае кодируется с переменным битрейтом (VBR). В методе кодирования используется оригинальное представление стереофонического источника звука в виде его точечного центра и «ширины». Это позволяет кодировать стереоканалы не по одному, а вместе. Поскольку в большинстве композиций каналы взаимозависимы, это оптимизирует размер получаемого файла. В целом метод обеспечивает сжатие на 20-50% лучше, чем MP3 при более высоких субъективных оценках качества. Гибкий переменный битрейт хорошо справляется со своей работой – звук получается не таким смазанным, как у других форматов, чувствуется «прозрачность» даже на ~70 Кбит/с.

Nero Digital Audio (Advanced Audio Codec).
Интересный кодек, но очень редкий. Битрейт может быть как постоянный, так и переменный до 448 Kbit. Существует несколько разновидностей кодека, к примеру, версия от Ahead Nero. Advanced Audio Codec - это разработка института Фраунгофера, создателя формата MP3, в содружестве с несколькими сторонними фирмами. В AAC изначально заложена поддержка частоты дискретизации до 96 Кгц, а максимальное количество каналов увеличено с двух до 48 в расчёте на будущие многоканальные форматы вроде шестиканального Dolby Digital. За счёт использования более сложных алгоритмов психоакустического анализа кодеры работают значительно медленнее, чем в случае с MP3, а проигрыватели также требуют большей мощности процессора. Важной особенностью AAC является так называемые водяные знаки (watermarks) – возможность вносить в аудиофайл различную информацию - имя автора, название трека и прочее, которую невозможно удалить.

Спектроанализ форматов

Спектр mp3 @ 128 kbps.44khz.16bit. Кодек LAME 3.96.

Спектр mp3 128 kbps 44khz 16bit Кодек LAME 3.96

Из спектра видно, что частоты урезаются только после 18 kHz. Но этот результат достигается только при использовании разновидности кодека mp3 - LAME 3.96. К примеру, если использовать Blade encoder и другие, то предельные частоты будут всего до 12 – 16 kHz. После прослушивания сжатой простой композиции выявился только один «артефакт». На некоторых частотах иногда появлялся эффект «дисторшена» (distortion), проявлявшийся в небольшом дребезжании, к примеру, на звуках hats и иногда на басах. Слушать музыку с битрейтом ниже 128 kbps не рекомендуется, появляются шумы, завалы на ударных, не отчётливо слышны верха.

Спектр WMA 8 @ 128 kbps.44kHz.16bit.

Спектр WMA 8 128 kbps 44kHz 16bit

Тут совсем другая картина: заметна линия примерно до 15 kHz, а дальше идёт немного «фильтрованная» полоса верхних частот. В случае mp3, WMA кодек не равномерно «урезает частоты» / «выбрасывает звуки». Поэтому подобного качества проработки сигнала в Windows Media Audio 8 можно услышать и на 96kbps и даже на 80 битрейтах. У этого кодека совсем другие принципы кодирования, а значит и другие «артефакты» появляющиеся на низких битрейтах. Для эксперимента можно послушать wma файл со сжатием 64kbps – слышны какие–то побулькивания на ударных инструментах и размазанность всех звуков как при вокодере, но многие частоты все же сохранились.

Спектр MP3Pro @ 96kbps.22kHz.16bit.

Спектр MP3Pro 96kbps 22kHz 16bit

Несмотря на то, что максимальным для этого кодека является планка до 96kbps/22kHz субъективное мнение о MP3Pro осталось хорошее, минимум искажений, максимум чёткости сигнала. Радует, что осталось некоторое количество верних частот, хотя ударники показались приглушенными.

Спектр OGG Vorbis @ 128 kbps.44khz.16bit.

Спектр OGG Vorbis 128 kbps 44khz 16bit

В принципе, при использовании формата OGG, нет смысла выставлять качество больше 128Kbit, т.к. и на 128Kbit звук чёткий и «прозрачный». Можно без отвращения слушать музыку на битрейтах от ~ 60 Kbit. Странно, что OGG Vorbis менее популярен, чем WMA.

Спектр Nero Digital Audio (Advanced Audio Codec) @ 128 kbps.44khz.16bit.

Спектр Nero Digital Audio (Advanced Audio Codec) 128 kbps 44khz 16bit

Как видно разработчики пожертвовали верхними частотами, оставляя средние и низкие, ради качества проработки аудиоматериала.

Итоги

Конкурентов у формата MP3 много и одни из самых перспективных – это WMA и OGG Vorbis. Что же касается MP3pro, то его можно порекомендовать для простых композиций, где потеря качества не большая или для тех случаев, когда качество не имеет особого значения, а главное, чтобы был маленький размер файла.

Батюков Я.Д. (TiTech), 13.03.2005
CJCity.ru

Комментарии (8)

Чтобы оставить комментарий, .

  • Гость
    (Гость) 11.06.2011 21:22 #

    Матвей - Тут есть формат wav

  • Гость
    (Гость) 01.04.2010 21:42 #

    Petro - Гы, OGG/Vorbis по-моему по качеству кодирования всех делает, но загвоздка в том, что для его проигрывания нужен сопроцессор для чисел с плавающей запятой (ну вообще-то есть libtremor, где все делается через целочисленную арифметику), да и ведущие компании - производители проигрывателей как-то сговорились против поддержки Vorbis в своей продукции, чтоб за другие форматы бедным юзерам платить приходилось... :( А вообще еще есть HE-AAC, это тот же AAC только с SBR (v2 еще и с Parametric Stereo), он специально для низких частот типа 32kbps, т.е. типа на мобильнике слушать, когда качество особо не нужно, а на карте мало памяти. Еще компания SONY объявила о формате ATRAC3plus - наследнике ATRAC3, что в минидисках используется, якобы A3p на 64kbs имеет качество как у MP3 на 128kbs, примерно то же самое заявляет Microsoft о своем новом формате WMA 9 Pro. И да, вот еще, появился экспериментальный кодек, называемый CELT (см. http://www.celt-codec.org/ ), тоже свободный и бесплатный, его особенность в том, что при качестве, чуть уступающем Vorbis, кодирует и раскодирует в десятки раз быстрее, т.е. его можно вполне применять на устройствах со слабой вычислительной мощностью, типа миниатюрных диктофонов, недорогих плейеров и других, вопрос только в том, насколько будет он внедрен, ведь все те же фирмы, которые в свое время не захотели поддерживать Vorbis из-за жадности и склонности к злоупотреблению всякими лицензионными ограничениями, по той же причине скорее всего откажутся и от CELT.

  • Гость
    (Гость) 16.02.2010 22:54 #

    Николай - MP3 Lame самый лучший ! Остальное отстой! Пишите музон от 160кБт до 256кБт, реально 224кБт не отличите от оригинала, даже 192 не отличить обычному обывателю. Не сравнивайте музон из интернета в формате MP3, даже с битрейдом 320, весь этот музон как правило плох, и писан с польских дисков да еще и с видимо специально завышенной шромкостью, тем самым потеря частот и качества. Нормальный музон в MP3 записан тише, да и все оригинальные диски CD записаны тише левых дисков из Польши.

  • Гость
    (Гость) 13.01.2010 19:05 #

    Vital - OGG лучше всех!

  • Гость
    (Гость) 04.06.2009 19:35 #

    Hello World - OGG наше все! :) Качество получше, вес - поменьше, "изначально полностью открыт и бесплатен. Опубликована полная спецификация метода и формата, регулярно освещаются изменения и дополнения." => mp3 не нужен. Стандарты должны быть открытыми.

  • Гость
    (Гость) 10.05.2009 21:37 #

    Alex - Самый лучший способ прослушивания музыкальных CD: с хорошего плейера закачивается звук хорошей звуковой платой с частотой дискретизации 96KHz. Частота 96KHz позволяет увидеть кодировщику тяжёлые частоты: 16KHz-... Переводится звук в формат OGG с качеством 4 (160kbps). Наслаждайтесь.

  • Гость
    (Гость) 11.04.2009 14:26 #

    TH - Lame- рулит!!!

  • Гость
    (Гость) 18.03.2009 20:26 #

    миша - хочу менять формат песен

Пополнения софта для Windows

  • W.A. Productions ComBear v1.0.1
    W.A. Productions ComBear v1.0.121 Февраля 2022

    ComBear — чрезвычайно мощный и невероятно динамичный плагин-компрессор, с функцией параллельного сжатия. Он придает потрясающий звук и ощущение ударным, синтезатору,

  • ToneBoosters 23 plugins pack v1.6.0
    ToneBoosters 23 plugins pack v1.6.021 Февраля 2022

    ToneBoosters — это компания, которая занимается разработкой традиционных аудио-плагинов, таких как эквалайзеры, компрессоры и многое другое. Аудиоинструменты, с помощью

  • DSPplug Mark3 1.8
    DSPplug Mark3 1.819 Февраля 2022

    Mark3 - это mid/side лимитер с монофоническим, стереофоническим и расширенным режимами. Как и предыдущие предложения DSPplug, mark3 предназначен только для Windows, но поддержка

  • Guitarml TS-M1N1 1.1.0
    Guitarml TS-M1N1 1.1.019 Февраля 2022

    Бесплатный овердрайв на основе нейросетиTS-M1N3 — это гитарный плагин, клон классической педали овердрайва TS-9 Tubescreamer. Для создания модели поведения ручек драйва

  • Fanan Team Yumbu 3
    Fanan Team Yumbu 315 Февраля 2022

    Yumbu 3 — это барабанный сэмплер с молниеносной загрузкой наборов ударных и быстрым одноступенчатым управлением, приспособленный для живого использования. В новой версии

Новости музыкального софта

Новости музыкального оборудования

  • ESI planet 22c
    Dante аудиоинтерфейс ESI planet 22c 09 марта, 2022

    С помощью этого интерфейса сети Dante можно быстро и легко расширять, будь то на концертах, вещательных станциях или в зоне установки. planet...

  • микрофоны Universal Audio
    Дебютные микрофоны Universal Audio 22 февраля, 2022

    Ветераны аналогового аудио и пионеры DSP Universal Audio объявили о своем выходе на рынок микрофонов с шестью новыми моделями. Первый, по-видимому,...

  • Портативный рекордер Zoom F3
    Портативный рекордер Zoom F3 21 февраля, 2022

    Портативные полевые рекордеры становятся все более совершенными, и Zoom вносит свой вклад в развитие рынка, выпуская «проверенный в боевых...

  • Error Instruments Velix
    Error Instruments Velix, экспериментальный синтезатор с сенсорными пластинами 20 февраля, 2022

    В недрах сумасшедшей звуковой лаборатории Error Instruments появился Velix, экспериментальный синтезатор с «органическим» звуком...

  • Мобильный аудиоинтерфейс Apogee Duet 3
    Мобильный аудиоинтерфейс Apogee Duet 3 19 февраля, 2022

    Потрясающий звук никогда не выглядел так хорошо В 2007 году оригинальный Apogee Duet разрушил все представления о том, каким может быть интерфейс...