Меняем формат!
Не для кого не секрет, что самым популярным форматом сжатия музыки является mp3, ведь он используется везде: в магнитофонах, mp3/CD плеерах, магнитолах и конечно же в компьютерах. У него приемлемое сочетание объём /качество. Но помимо mp3 существует менее известные форматы – Windows Media Audio, OGG Vorbis, Advanced Audio Codec и другие. В этом материале мы рассмотрим и сравним несколько таких форматов.
Немного о форматах
MP3 / MP3 Pro.
Для начала разберемся, какие преимущества есть у mp3 кодера и его разновидности – mp3 pro. Разделим процесс сжатия на 3 этапа:
1. Быстрое преобразование исходного сигнала (фрейма) по методу Фурье (FFT). FFT – это процесс, представляющий исходный сигнал в виде суммы синусоид. Поэтому вместо того чтобы хранить волны в каждом сэмпле, остаётся запомнить только значение амплитуд (Ai) и длин волн (li). Обратное преобразование невозможно, сигнал можно восстановить только приближенно, с потерями.
2. Психоакустическая обработка, задачей которой является выбрать и вырезать из звукового потока информацию, не воспринимаемую человеческим ухом. Вот, тут-то и начинаются самые сложные вычисления, не щадящие качество звучания: в отличие от зрительного восприятия слух намного чувствительнее к различным искажениям и неточностям.
3. Применение математических алгоритмов сжатия. Во время этой операции происходят только числовые преобразования, позволяющие представить конечную информацию в более компактном виде. Преобразования Фурье известны давно и ими не ограничиваются разработчики «кодеров» (программ для сжатия музыки), поэтому появляются новые методики сжатия сигнала за счёт усовершенствования психоакустической модели кодирования. Эти методы основываются на особенностях восприятия звука человеком. Так если сначала подать громкий звук на частоте 800 Гц, то более тихий звук на частоте 1000 Гц уже не будет фиксироваться слухом. Также в модели используется явление снижения чувствительности на период 5-100 миллисекунд после возникновения резкого звука, например взрыва или выстрела.
У mp3 есть ряд неоспоримых преимуществ перед другими форматами - много настроек компрессии, в том числе применение переменного битрейта (variable bit rate), удобные тэги (tags), большое количество плееров воспроизводящих музыку в формате mp3, возможность воспроизводить в потоковом режиме.
В июле 2001 года компанией Coding Technologies вместе с Thomson Multimedia и институтом Fraunhofer, был выпущен кодек MP3Pro, как более мощное развитие старого mp3. Файлы, закодированные кодеком MP3Pro, можно воспроизводить по-прежнему в проигрывателях поддерживающие mp3, но качество при этом заметно хуже. Заметно чувствуется недостаток верхних частот, если не использовать специальный плеер. Это объясняется тем, что файлы MP3Pro имеют два звуковых потока, один из которых и воспроизводят обычные плееры, т.е. – MPEG-1 layer 3. Дело в том, что в MP3Pro используется новая технология – SBR (Spectral Band Replication), предназначенная для более эффективной компрессии и более качественной передачи верхнего частотного диапазона. Как уже было сказано выше, MP3Pro состоит из двух частей, первая с узким диапазоном частот – до 10 Кгц, а вторая с высокими частотами. Настройки MP3Pro более скромные, чем у его предшественника, кодировать файлы можно только до 96 kbps/Joint Stereo. Таким образом, добивается отличное сочетание объём / качество, даже при таком низком битрейте.
VBR и CBR.
При использовании CBR (Constant Bitrate) всем блокам назначается одинаковый объём (Bitrate). Из этого следует, то что, чем сложнее звуковой материал, тем менее качественно он будет звучать. При VBR (Variable Bitrate) каждому отдельному блоку задаётся свой размер. Битрейт, оптимально подходящий для кодирования данного участка композиции (фрейма), кодер выбирает самостоятельно на основе анализа сложности сигнала в каждом отдельном фрейме. Теоретически при таком достоинстве должен получиться mp3 файл с максимально оптимальным размером, но психоакустическая модель кодека не идеальна, и зачастую сложные блоки, требующие большего битрейта, его не получают.
Joint Stereo (совмещённое стерео).
Это алгоритм, позволяющий на основе сигнала одного аудиоканала и частичной информации о втором воссоздать исходный стереосигнал. При этом кодируется лишь общая составляющая каналов, а стерео на высоких частотах искусственно синтезируется путём умножения общего сигнала на известные значения мощности частотных участков. Это чем-то схоже с алгоритмом сжатия zip / rar, т.к. почти вдвое уменьшается объём, необходимый для записи аудио трека. Но, к сожалению, полное восстановление исходного стерео сигнала таким методом невозможно – при синтезе неизбежны ошибки, поэтому такой способ лучше использовать в простых, мало-инструментальных композициях или в фильмах.
OGG Vorbis.
Бесспорным плюсом OGG Vorbis, одного из наиболее перспективных форматов для компрессии аудиоданных, является то, что он изначально полностью открыт и бесплатен. Опубликована полная спецификация метода и формата, регулярно освещаются изменения и дополнения. Кодек поддерживает частоту дискретизации до 48 Кгц, скорость потока до 512 Кбит/с, до 255 каналов, позволяет хранить в файле вместе с композицией текстовую и графическую информацию. Звук в любом случае кодируется с переменным битрейтом (VBR). В методе кодирования используется оригинальное представление стереофонического источника звука в виде его точечного центра и «ширины». Это позволяет кодировать стереоканалы не по одному, а вместе. Поскольку в большинстве композиций каналы взаимозависимы, это оптимизирует размер получаемого файла. В целом метод обеспечивает сжатие на 20-50% лучше, чем MP3 при более высоких субъективных оценках качества. Гибкий переменный битрейт хорошо справляется со своей работой – звук получается не таким смазанным, как у других форматов, чувствуется «прозрачность» даже на ~70 Кбит/с.
Nero Digital Audio (Advanced Audio Codec).
Интересный кодек, но очень редкий. Битрейт может быть как постоянный, так и переменный до 448 Kbit. Существует несколько разновидностей кодека, к примеру, версия от Ahead Nero. Advanced Audio Codec - это разработка института Фраунгофера, создателя формата MP3, в содружестве с несколькими сторонними фирмами. В AAC изначально заложена поддержка частоты дискретизации до 96 Кгц, а максимальное количество каналов увеличено с двух до 48 в расчёте на будущие многоканальные форматы вроде шестиканального Dolby Digital. За счёт использования более сложных алгоритмов психоакустического анализа кодеры работают значительно медленнее, чем в случае с MP3, а проигрыватели также требуют большей мощности процессора. Важной особенностью AAC является так называемые водяные знаки (watermarks) – возможность вносить в аудиофайл различную информацию - имя автора, название трека и прочее, которую невозможно удалить.
Спектроанализ форматов
Спектр mp3 @ 128 kbps.44khz.16bit. Кодек LAME 3.96.
Из спектра видно, что частоты урезаются только после 18 kHz. Но этот результат достигается только при использовании разновидности кодека mp3 - LAME 3.96. К примеру, если использовать Blade encoder и другие, то предельные частоты будут всего до 12 – 16 kHz. После прослушивания сжатой простой композиции выявился только один «артефакт». На некоторых частотах иногда появлялся эффект «дисторшена» (distortion), проявлявшийся в небольшом дребезжании, к примеру, на звуках hats и иногда на басах. Слушать музыку с битрейтом ниже 128 kbps не рекомендуется, появляются шумы, завалы на ударных, не отчётливо слышны верха.
Спектр WMA 8 @ 128 kbps.44kHz.16bit.
Тут совсем другая картина: заметна линия примерно до 15 kHz, а дальше идёт немного «фильтрованная» полоса верхних частот. В случае mp3, WMA кодек не равномерно «урезает частоты» / «выбрасывает звуки». Поэтому подобного качества проработки сигнала в Windows Media Audio 8 можно услышать и на 96kbps и даже на 80 битрейтах. У этого кодека совсем другие принципы кодирования, а значит и другие «артефакты» появляющиеся на низких битрейтах. Для эксперимента можно послушать wma файл со сжатием 64kbps – слышны какие–то побулькивания на ударных инструментах и размазанность всех звуков как при вокодере, но многие частоты все же сохранились.
Спектр MP3Pro @ 96kbps.22kHz.16bit.
Несмотря на то, что максимальным для этого кодека является планка до 96kbps/22kHz субъективное мнение о MP3Pro осталось хорошее, минимум искажений, максимум чёткости сигнала. Радует, что осталось некоторое количество верних частот, хотя ударники показались приглушенными.
Спектр OGG Vorbis @ 128 kbps.44khz.16bit.
В принципе, при использовании формата OGG, нет смысла выставлять качество больше 128Kbit, т.к. и на 128Kbit звук чёткий и «прозрачный». Можно без отвращения слушать музыку на битрейтах от ~ 60 Kbit. Странно, что OGG Vorbis менее популярен, чем WMA.
Спектр Nero Digital Audio (Advanced Audio Codec) @ 128 kbps.44khz.16bit.
Как видно разработчики пожертвовали верхними частотами, оставляя средние и низкие, ради качества проработки аудиоматериала.
Итоги
Конкурентов у формата MP3 много и одни из самых перспективных – это WMA и OGG Vorbis. Что же касается MP3pro, то его можно порекомендовать для простых композиций, где потеря качества не большая или для тех случаев, когда качество не имеет особого значения, а главное, чтобы был маленький размер файла.
Батюков Я.Д. (TiTech), 13.03.2005
CJCity.ru
Матвей - Тут есть формат wav
Petro - Гы, OGG/Vorbis по-моему по качеству кодирования всех делает, но загвоздка в том, что для его проигрывания нужен сопроцессор для чисел с плавающей запятой (ну вообще-то есть libtremor, где все делается через целочисленную арифметику), да и ведущие компании - производители проигрывателей как-то сговорились против поддержки Vorbis в своей продукции, чтоб за другие форматы бедным юзерам платить приходилось... :( А вообще еще есть HE-AAC, это тот же AAC только с SBR (v2 еще и с Parametric Stereo), он специально для низких частот типа 32kbps, т.е. типа на мобильнике слушать, когда качество особо не нужно, а на карте мало памяти. Еще компания SONY объявила о формате ATRAC3plus - наследнике ATRAC3, что в минидисках используется, якобы A3p на 64kbs имеет качество как у MP3 на 128kbs, примерно то же самое заявляет Microsoft о своем новом формате WMA 9 Pro. И да, вот еще, появился экспериментальный кодек, называемый CELT (см. http://www.celt-codec.org/ ), тоже свободный и бесплатный, его особенность в том, что при качестве, чуть уступающем Vorbis, кодирует и раскодирует в десятки раз быстрее, т.е. его можно вполне применять на устройствах со слабой вычислительной мощностью, типа миниатюрных диктофонов, недорогих плейеров и других, вопрос только в том, насколько будет он внедрен, ведь все те же фирмы, которые в свое время не захотели поддерживать Vorbis из-за жадности и склонности к злоупотреблению всякими лицензионными ограничениями, по той же причине скорее всего откажутся и от CELT.
Николай - MP3 Lame самый лучший ! Остальное отстой! Пишите музон от 160кБт до 256кБт, реально 224кБт не отличите от оригинала, даже 192 не отличить обычному обывателю. Не сравнивайте музон из интернета в формате MP3, даже с битрейдом 320, весь этот музон как правило плох, и писан с польских дисков да еще и с видимо специально завышенной шромкостью, тем самым потеря частот и качества. Нормальный музон в MP3 записан тише, да и все оригинальные диски CD записаны тише левых дисков из Польши.
Vital - OGG лучше всех!
Hello World - OGG наше все! :) Качество получше, вес - поменьше, "изначально полностью открыт и бесплатен. Опубликована полная спецификация метода и формата, регулярно освещаются изменения и дополнения." => mp3 не нужен. Стандарты должны быть открытыми.
Alex - Самый лучший способ прослушивания музыкальных CD: с хорошего плейера закачивается звук хорошей звуковой платой с частотой дискретизации 96KHz. Частота 96KHz позволяет увидеть кодировщику тяжёлые частоты: 16KHz-... Переводится звук в формат OGG с качеством 4 (160kbps). Наслаждайтесь.
TH - Lame- рулит!!!
миша - хочу менять формат песен