Противоборство 128 и 192 kbps!

Grue

Pain - On And On можно и в MIDI слушать :)

$piRiT

Ну, я считаю, что мп3 умирает!

На смену ему идет множество новых, более современных и качаственных кодеков: wma, ape... Я не считаю, что пора уже все бросать и переходить на них, и мп3 если и исчезнет, то не ранее чем лет через 10 - 20.... Просто он уже устарел, причем ощутимо! А его плюсы от размера получаемого файла, постепенно сходят на нет, инет дешевеет, каналы расширяются, скорость скачки растет..
Скоро я думаю размер музыкального файла в 20 метров никого пугать уже не будет...
А качество...
Качество будет 100% копией оригинала!

=)

Delirium

Wma? Расскажи про етот формат плиззз...

$piRiT

Вот про будущее, хотя, может не приживется....:

Monkey's Audio: форматам MP3 и WMA пора на на свалку истории

Любители мультимедиа-технологий наверняка знают, что на сегодняшний день существует немало различных форматов сжатия звука. У каждого их них есть свои преимущества.

RealAudio предназначен для потокового транслирования звука через Интернет, MAC1 неплохо сжимает без потери качества, AC3 отлично подходит для DVD-video, WMA известен благодаря своему владельцу и высокому качеству на низких битрейтах, Vorbis OGG привлекает бесплатностью и, позволю предположить, молодой открытостью (вспомним DivX). Даже внутри MP3 существует разделение: алгоритмы Xing сжимают очень быстро, но плохо, официальный Fraunhoffer жмет хорошо на низких битрейтах, открытый для всех Lame — лидер на высоких. При этом популярностью пользуются все три алгоритма.

Все2 распространенные потоковые форматы сжатия (MP3, AC3, WMA, OGG) основаны на схожем принципе работы, состоящем из трех основных этапов:

Первый этап — быстрое преобразование Фурье (FFT) исходного сигнала (фрейма, так как форматы потоковые). Кратко FFT — это процесс, представляющий исходный сигнал в виде суммы синусоид:

F(t)=A1sin(λ1t) + … + Ansin(λnt) + …

Теперь, вместо того чтобы хранить информацию о величине амплитуды волны в каждом сэмпле, остается запомнить только значения амплитуд (Ai) и длин волн (li). Обратное преобразование Фурье для реальных звуков без потери качества невозможно.

Второй этап — психоакустическая обработка, призванная вычистить из звукового потока информацию, не воспринимаемую человеческим ухом.

И, наконец, третий этап — применение математических алгоритмов сжатия. Во время этой операции происходят только численные преобразования, позволяющие представить информацию в более компактном виде. В MP3, например, используется чуть-чуть доработанный алгоритм Хаффмана3.

Алгоритм FFT известен сравнительно давно, и на его модификации далеко не уедешь, поэтому разработчики совершенствуют методики сжатия за счет оптимизации математического и психоакустических алгоритмов кодирования. Если математический алгоритм в каждом формате свой, то основные принципы действия психоакустического алгоритма сжатия схожи и заимствуют общие идеи у небезызвестного формата MPEG-1 Layer II, разработанного в 1992 году Moving Picture Experts Group4.

Давайте поговорим о свойствах нашего слуха, благодаря которым мы можем слушать сжатую в несколько раз аудиоинформацию практически без искажений.

Диапазон слышимости

Человеческое ухо неидеально. Во младенчестве человек воспринимает звук в диапазоне от 15 Гц до 22 кГц; с возрастом рамки сужаются, и средний взрослый человек слышит звуки от 20 Гц до 18 кГц. Такая же ситуация и с восприятием амплитуды волны, то есть с громкостью. Динамический диапазон человеческого уха составляет 96 дБ. Проще и линейно говоря, самый громкий звук (выше которого находится болевой порог) более чем в 30 тысяч раз интенсивнее самого тихого, который ухо может различить. На этих свойствах слухового аппарата основана работа первого фильтра кодировщика. Он просто отрезает сигналы, выходящие за пределы указанных диапазонов частот и амплитуд. Однако уже эта операция уменьшает «живость» звука. Многие сверхнизкие и сверхвысокие звуки человек не может услышать, осознать, при этом все же ощущая их. Громкие сверхнизкие тона можно «услышать телом» по резонансу в костях и других частях тела. Тихие же вызывают бессознательное чувство беспокойства, напряженности. Безопасный инфразвук (10-15 кГц) применяется в кинотеатрах для пущего нагнетания атмосферы в фильмах ужасов.

Рис. 1. Граница слышимости в тишине.

Следующее важное свойство человеческого слуха — неравномерность распределения границы слышимости звука по частотам. Наилучшим образом мы слышим частоты в районе 2-4 кГц (не случайно речевой диапазон находится примерно в этой же области, в природе все взаимосвязано), к низким и высоким частотам чувствительность уха снижается.

Таким образом, чем дальше частота слышимого звука от 2-4 кГц, тем выше граница слышимого звука, тем больше информации можно вырезать без заметных потерь в качестве.

Чувствительность уха

К изменению каждого их двух параметров волны — частоты и амплитуды — у уха есть некоторый нижний порог чувствительности. Если изменение меньше этого порога, алгоритм его игнорирует. Например, для сигнала с частотой 1 кГц порог чувствительности составляет примерно 30 Гц. Если в кодируемом сигнале частота изменяется с 1000 Гц на 1020 Гц, сохранять это изменение не имеет смысла, так как человек все равно его не заметит. Таким образом, достаточно просто увеличить временные рамки звучания тона 1 кГц, а не кодировать два разных сигнала.

Частотная маскировка

Любой слышимый тон изменяет восприятие остальной звуковой картины. При воспроизведении какого бы то ни было тона граница слышимости соседних с ним по частотам звуков изменяется. В этом случае воспроизводимый тон называется маскирующим, а граница слышимости окружающих его тонов поднимается тем выше, чем ближе их частота к частоте маскирующего сигнала. То есть, слушая низкий звук, значительно проще услышать высокий звук, нежели низкий другой частоты. Под воздействием тона частотой 1 кГц и интенсивностью 60 дБ измененная граница слышимости будет выглядеть примерно как на рис. 2.

Рис. 2. Граница слышимости под воздействием тона
частотой 1 кГц и интенсивностью 60 дБ.

Обратите внимание, что зачастую в музыке одновременно присутствуют самые разнотоновые компоненты. Бочка, например, и тарелки. Таким образом, маскирующих тонов может быть несколько. При использовании сразу нескольких маскирующих тонов (частотой 0,25, 1, 4, 8 кГц, см. рис. 3) граница слышимости остальных сигналов сильно поднимается.

Рис. 3. Граница слышимости под воздействием сразу
нескольких маскирующих тонов (частотой 0,25, 1, 4, 8 кГц).

На рис. 3 видно, что наилучшим образом маскируются высокие частоты. Уже при воспроизведении 8-килогерцового маскирующего тона граница слышимости на 14 килогерцах поднимается. Алгоритмы компрессии этим активно пользуются — при сжатии качество высоких частот страдает обычно в первую очередь, что особенно хорошо проявляется на низких битрейтах.

Создается ощущение, что в реальной музыке можно замаскировать почти все. Это не совсем так. Музыка тем, в частности, отличается от шума, что в ней существуют отдельные партии. И изначально они играются с таким расчетом, чтобы слушатель воспринимал их все, чтобы их частоты не слишком пересекались. Интересное наблюдение: при кодировании с переменным битрейтом на перенасыщенных звуком моментах (например, когда очень грозно и громко играют металлисты) битрейт обычно ниже, чем при кодировании чистого звучания флейты.

Временная маскировка

Это явление похоже на частотную маскировку, но — как понятно из названия — здесь происходит маскировка во времени. Эффект временной маскировки почувствовать очень просто: близко взорвавшаяся хлопушка приводит к временному «закладыванию» одного из ушей неудачливого пиротехника (закладывание обоих ушей маловероятно, но тоже возможно). Хотя в приведенном примере происходит эффект совершенно другого рода, он отлично передает суть маскировки.

В обычных условиях эффект от временной маскировки длится значительно меньше. После того как воспроизведение маскирующего тона резко прекращается, в течение короткого времени (около сотни миллисекунд, в зависимости от частоты и амплитуды сигнала) граница слышимости изменяется, причем нелинейно. На рис. 4 представлен график, иллюстрирующий временную маскировку.

Рис. 4. Временная маскировка.

Кроме того, существует такое явление, как предмаскировка — увеличение порога слышимости до появления маскирующего тона. Но так как эффект предмаскировки длится всего около 10 мс и сильно различается у разных людей, его использование на текущем этапе эволюции форматов нецелесообразно.

В графиках частотной и временной маскировки одна из осей совпадает — и это не случайно. Совместив эти два графика, можно построить объемную диаграмму, иллюстрирующую общую эффективность компрессии звука, основанной на маскировке сигналов (рис. 5).

Рис. 5. Общая эффективность компрессии звука.

Как видно, объем, заключенный под поверхностью слышимых звуков, составляет немалую часть от общего количества звуков. Удаление замаскированных тонов дает самое значимое сжатие, однако оно же и приводит к наиболее заметной потери качества.

Почему субъективная потеря качества все же происходит? Обо всех эффектах маскировки узнавали опытным путем. В полной тишине воспроизводились маскирующие тона, из-за которых испытуемый должен был услышать маскируемый тон. Причем «услышать осознанно». Осознанный анализ различий в тестовый тонах и восприятие музыки — совершенно разные вещи, тем более что во втором случае процесс очень субъективен.

Конечно, для тренированного уха психоакустические эффекты гораздо меньше. С этим, в дополнение к известным ограничениям FFT, связано весьма прохладное отношение музыкантов к компрессированному звуку. Все они отмечают уплощение стереопанорамы, потерю индивидуальности звучания инструментов, замыливание, текучесть, нерельефность, смазанность и урчание сжатого звука. И, в общем, они правы.

В связи с этим встает вопрос: есть ли эффективные алгоритмы сжатия звука без потери качества? Оказывается, есть. Больше того, они уже давно воплощены в жизнь в весьма привлекательной для применения форме (см. врезку).

Теория

Алгоритмы lossy- и lossless-компрессии (с потерей и без потери качества соответственно) принципиально отличаются друг от друга. Если lossy-алгоритмы после FFT работают с привычными для нас звуковыми волнами, то все lossless-кодировщики понятия не имеют о том, что длинный набор чисел на входе может быть представлен в виде волны с амплитудой и периодом. Их задача — исключительно математическими методами упаковать информацию поплотнее так, чтобы она могла быть в точности восстановлена впоследствии. Во многом алгоритмы lossless-сжатия схожи с алгоритмами обычных архиваторов. Но архиваторы ориентированы на сжатие любой информации, lossless-кодеки же обладают некоторой спецификой, которая позволяет им лучше справляться со своей прямой задачей — компрессией звука. Кроме того, при декодировании (проигрывании) сжатого звукового файла требуется возможность быстрой перемотки. Закодированный файл должен быть разделен на сравнительно короткие промежутки, каждый из которых сжимается независимо от остальных. Архиваторы же могут позволить себе работу с непрерывными архивами, дающими лучшее сжатие.

В Сети есть несколько разных форматов хранения звука без потери качества. Самым популярным их них является Monkey’s Audio Compression5 (MAC, www.monkeysaudio.com). Он обеспечивает lossless-сжатие аудиоинформации в среднем в 1,5-2 раза. Этот алгоритм состоит из трех основных этапов кодирования. Только один из них базируется на использовании природных свойств звука, позволяющих представлять закодированный сигнал в более удобной для компрессии форме. На двух оставшихся этапах используются методы сжатия, в принципе применимые для информации любой природы.

Этап первый: замена переменных6

В исходной некомпрессированной записи информация об амплитуде волны левого и правого канала сохраняется с определенной частотой дискретизации и записывается подряд. Вот как выглядит секунда звука обыкновенного Audio CD: LR LR … LR LR (44100 сэмплов LR), где L и R — 16-битные числа, характеризующие амплитуду волны в левом и правом канале соответственно.

Часто в музыке сигналы левого и правого канала очень похожи. Этим грех не воспользоваться. На первом этапе алгоритм MAC преобразует исходную информацию (числа L и R в каждом сэмпле) по такому принципу: X = (L + R)/2 и Y = (L – R), где X и Y — новые переменные, с которыми алгоритм и будет работать в дальнейшем. Легко видеть, что исходные значения L и R легко восстановимы из X и Y преобразованием: R = X – Y/2 и L = X + Y/2.

Один из эффектов этого преобразования очевиден. Если разница между левым и правым каналом незначительна или постоянна или ее нет вовсе, то после преобразования «игреки» будут соответственно или приближены к нулю, или все одинаковы, или равны 07. В любом из этих случаев дальнейшее сжатие «игреков» пойдет веселей.

Информация о звуковом сигнале преобразована в удобный для компрессирования вид, и теперь алгоритм MAC работает с новыми переменными X и Y.

Этап второй: мультипроходный предсказатель

На этом этапе исключается избыточность информации. Именно реализацией этой части алгоритма и отличаются различные алгоритмы lossless-сжатия.

Задача предсказателя — по возможности минимизировать значения «иксов» и «игреков». Проще всего описать работу предсказателя на упрощенном примере. Пусть дана последовательность значений X (8, 24, 45) и некоторая формула, позволяющая рассчитать опорное значение PX по двум предыдущим значениям X: PX = (2 x X-1) – X-2, где X-2 и X-1 — два предыдущих значения Х.

Рассчитаем опорное значение РХ для последнего значения нашей последовательности: PX = (2 x 24) – 8 = 40.

Теперь вместо последнего значения, запишем в нашу последовательность разность между реальным и опорным значением: (8, 24, 45 – 40 = 5) Число 5 ввиду своей более низкой двоичной разрядности на заключительном этапе будет кодироваться лучше, чем 45.

Большая часть хороших кодировщиков адаптивна, то есть может приспосабливаться к кодированию конкретной информации. Для адаптации, естественно, требуется мультипроходное кодирование. При каждом следующем проходе кодек учитывает результаты предыдущего прохода и улучшает адаптацию. Результат компрессии тем выше, чем больше сделано проходов. Вот («на пальцах») как это реализовано в алгоритме MAC. Возьмем параметр m, варьирующийся от 1 до 1024 и по умолчанию равный 512. Он будет служить «адаптатором». Для расчета последнего значения Xf последовательности воспользуемся такой формулой: Xf = X0 – PX х m/1024 = 45 – 40 х 512/1024 = 25.

Результат не очень впечатляет — 25 всего лишь на один двоичный порядок меньше 45. При следующем проходе алгоритм увеличит значение m.

Финальная степень компрессии зависит от того, насколько удачно выбраны изначальные формулы для расчета PX, а также от количества совершенных при компрессии проходов.

Описанный пример ни в коей мере не иллюстрируют реальную работу алгоритма MAC, а лишь описывает принцип его действия. В приведенном тривиальном примере экономия объема от применения преобразований не очень заметна, однако в действительности устройство кодека более сложное и детальное, он оперирует со значительно бо,льшими объемами информации, по сравнению с которыми служебная информация вроде величины m и рамок его изменений становится пренебрежимо мала.

Этап третий: финальное сжатие

На заключительном этапе происходит обыкновенное сжатие данных, похожее на алгоритмы стандартных архиваторов. Предположим, что перед алгоритмом возникла задача сжать последовательно четыре числа: 10, 14, 15 и 46. Так как разрядность оцифрованного звука — 16 бит, в некомпрессированном двоичном виде эти числа будут записаны как 0000000000001010, 0000000000001110, 0000000000001111 и 0000000000101110 и в сумме займут 8 байт, или 64 бита. Удалив лишние нули в начала каждого числа, запишем их подряд: 101011101111101110. В таком виде они занимают 18 бит. Именно так, к сожалению, получившиеся числа хранить нельзя, поскольку потеряна информация о том, где заканчивается одно число и начинается другое. Сохранить ее можно с небольшим увеличением объема.

Из имеющихся четырех чисел минимальная двоичная длина числа составляет четыре бита (в числах 10, 14 и 15). Запомним это число как переменную k. Она обозначает длину числа по умолчанию. С учетом сохраненного значения переменной k первые три числа можно записать подряд: 101011101111. Теперь осталось закодировать только последнее число, 46 (в двоичном коде 101110). Отбросим справа k = 4 бит. Оставшиеся два бита переполнения (10) в десятичной системе исчисления составляют 2. Теперь запишем число 46 в следующей форме: сначала нулями (то есть «одноично») коэффициент переполнения (в нашем случае 2) — 00; затем 1, означающую окончание кодировки переполнения; и в конце те самые четыре бита, которые были отброшены.

Итак, 46 в компрессированном виде записано как 0011110.

Вся последовательность 10, 14, 15, 46 при k = 4 записывается так: 1010111011110011110. Нетрудно проверить, что описанный алгоритм полностью обратим. Объем информации, занимаемый этой последовательностью, составляет 19 бит плюс еще информация о величине k.

Описанный пример, как и в предыдущем случае, достаточно тривиален, при реальном применении алгоритма используются гораздо бо,льшие числа, при кодировании которых информация о величинах k становится пренебрежимо малой.

На этом этапе MAC заканчивает работу, а результаты записывает в файл с расширением .ape.

Практика

У Monkey’s Audio-компрессии существует не только теоретическая сторона. Изложенный во врезке принцип сжатия уже нашел реализацию во вполне удобном приложении, которое тоже называется Monkey’s Audio (www.monkeysaudio.com).

При его инсталляции вам предложат добавить к Winamp’у dll-библиотеку, которая позволит проигрывать ape-файлы. Эти самые файлики и будет создавать Monkey’s Audio при компрессии.

Приложение Monkey’s Audio.

Больше всего Monkey’s Audio напоминает архиватор со всеми необходимыми атрибутами. Он умеет встраиваться в Проводник, сжимать wav-файлы, разжимать, тестировать, редактировать теги .ape, конвертировать из .ape в другие форматы. Интерфейс программы вызывает ассоциации с WinRAR, так что никаких трудностей в освоении возникнуть не должно. Неожиданно и приятно то, что автор включил в программу поддержку сторонних конкурирующих форматов. Так, Monkey’s Audio умеет конвертировать в три дополнительных lossless-формата — Rkau, Wavpack и Shorten, которые, надо отметить, иногда составляют достойную конкуренцию внутреннему формату MAC. Кроме того, поддерживаются четыре внешних lossy-кодировщика — два MP3 (MP3Enc и Lame), MP+ и OGG.

Конвертирование в основной формат ape может производиться с четырьмя разными уровнями компрессии. Чем выше уровень, тем больше времени займет сжатие. Кроме того, чем сильнее сжат файл, тем больше процессорного времени потребуется Winamp’у для его декодирования. В качестве иллюстрации ресурсоемкости алгоритма я провел несколько операций с известной инструментальной композицией Atom Heart Mother (Pink Floyd), длительностью 23 минуты 44 секунды (PCM, 44 kHz, 16 bit, Stereo). На компьютере с процессором Celeron 1,7 ГГц (DDR 2100) кодирование этого файла с максимальным сжатием заняло 2 минуты 19 секунд, декодирование в WAV — 2 минуты 32 секунды. В результате файл сжался до 49% от своего изначального размера. Очень неплохой результат, особенно учитывая разноплановость композиции. Во время воспроизведения закодированного файла в Winamp’e загрузка процессора не превышала 1%. Как видите, на современных компьютерах работа с этим форматом не вызовет ни малейшего дискомфорта.

По заверениям разработчика, Monkey’s Audio позволяет кодировать wav-файлы с любой частотой дискретизации, 8-, 16- или 24-битным динамическим диапазоном, моно или стерео. Насчет уж совсем любой частоты дискретизации возникают некоторые сомнения, однако все основные частоты (22,05, 32, 44,1, 48 кГц), а также битности и число каналов в разных комбинациях были мною проверены.

Подведем итог. Monkey’s Audio будет безусловно полезна людям, ценящим максимально качественный звук. Давая сжатие около 40-50%, ape-файлы вполне могут заменить mp3-архивы настоящих ценителей, благо удобство использования этого формата почти на уровне mp3. Наверняка он заинтересует и тех, кто имеет отношение к работе с цифровым звуком. Если же для вас идеальное качество звука не играет особой роли и сжатие производится только для последующего прослушивания, целесообразнее использовать какой-либо lossy-кодек — он даст самую большую экономию дискового пространства. С другой стороны, всегда приятно иметь пару любимых композиций в формате без потери качества — вдруг недалек тот день, когда большинство компьютеров станет оборудовано акустикой, достаточной для воспроизведения всех прелестей CDA.

Monkey’s Audio

Плюсы

Низкая ресурсоемкость

Относительно высокий коэффициент сжатия

Бесплатность кодека

Простота применения

Минусы

Невозможность сжатия CDA напрямую.

Для grab’a придется использовать отдельное приложение

Отсутствие ACM-кодека

Низкая совместимость.

Для проигрывания на других компьютерах
придется таскать с собой dll с декодером .ape для Winamp

1. Не путать с Мак’овским AIFF. — Прим. ред.

2. Хотя про форматы WMA и AC3 информация в Сети довольно скудная и противоречивая, она все же позволяет предположить схожесть с принципами MP3 и др.

3. Подробнее о принципе работы этого алгоритма см. «КТ» #493.

4. Он предназначался для формата MPEG-1, использовавшегося в VCD 1.0, и позволял кодировать звук «без существенных искажений» при битрейте 192 кбит/с. Наряду с этим форматом также развивался MPEG-1 Layer III, отличавшийся более высоким качеством (128 кбит/с Layer III сравнимо с 192 кбит/с Layer II) и требованиями к вычислительным ресурсам (486-е процессоры при декодировании испытывали затруднения). Именно этот алгоритм затем «вырос» во всем известный сегодня MP3.

5. О странном названии своего детища автор получал так много вопросов, что даже вынес их в FAQ. Q: Why name a lossless compression technology «Monkey’s Audio»? A: Well… who doesn’t love monkeys?

6. Информация о методе сжатия базируется на авторском описании: www.monkeysaudio.com/theory.

7. Для проверки этого факта я сжал два 10-секундных файла с шумом — первый моно, а второй стерео. Оба канала стереофайла были копией канала монофайла. В результате стереофайл получился всего лишь на 8 байт (!) больше, чем моно, и это при объеме 559 644 байта. После этого один из каналов стереофайла был сдвинут на 5 мс. На этот раз объем сжатого файла составил 1 107 836 байт.

Первоисточник тут: http://www.terralab.ru/multimedia/31182/

=)

$piRiT

Еще кое-что:

MP3

Об этом формате уже столько сложено песен и измарано сайтов, что, казалось бы, и сказать-то больше нечего. Тем не менее обилие всяческих разнотолков - как раз отличный повод привести в порядок всю эту разрозненную и, кстати, не всегда достоверную информацию.

Формат компрессии аудиоданных MPEG Layer III был запатентован в начале 90-х немецким Институтом Фраунхоффера в качестве стандарта для записи звука в MPEG-видеофильмах. Суть алгоритма сжатия заключается в том, что из звука, представленного в качестве набора частот, изымаются те из них, которые хуже остальных различимы человеческим ухом. То есть в звуке остаются только наиболее интенсивные для слушателя компоненты. В зависимости от коэффициента сжатия удаляется большее или меньшее количество "лишних" частот.

MP3 - многоцелевой формат благодаря широкому разбросу коэффициента сжатия, поэтому его можно применять и для "архивирования" аудиодисков, и для публикации в Интернете. Считается, что CD-качество обеспечивается MP3 уже при 128Кбит/с. На самом же деле при этом сжатии звук приобретает довольно заметные "упрощения", лучше всего различимые на звуках ударных инструментов, вокала. Долгие годы практики кодирования доказали, что наиболее оптимальное качество при не слишком большом объеме в MP3 достигается при 160Кбит/c, а при 256Кбит/c разница между оригиналом и сжатым файлом почти исчезает. Для публикации записей в Интернете отлично подойдет сжатие 56Кбит/c - при довольно четком звуке минута звучания занимает всего 400Кб. Как правило, при увеличении сжатия до 48Кбит/c качество заметно ухудшается. Максимальное сжатие, при котором остается подобие звука - 24Кбит/c в моно-режиме. В этом случае минута потянет на 150Кб.

В связи с открытостью формата MP3 существует целая куча разнообразных программ-кодировщиков, работающих по совершенно разным алгоритмам. Одна программа может выдать отличный звук и при 80Кбит/с, а другая - испортить его при 160. Среди множества сжимателей особого внимания заслуживают два: Xing Mpeg Encoder и Audioactive Production Studio. Xing Mpeg, встроенный в известный CD-риппер AudioCatalyst - один из самых быстрых и качественных кодеров. Он использует необычную схему кодирования: в процессе сжатия он удаляет из звука все частоты выше 15КГц, таким образом лучше кодируя более "существенные" частоты. "Выброшенные" частоты выше 15КГц различимы далеко не всеми людьми и далеко не на всяком оборудовании, поэтому такое решение выглядит оправданным. С другой стороны, разница между 192Кбит/c и 320Кбит/c практически отсутствует. Для апологетов бескомпромиссного качества программа Audioactive Production Studio предоставит все, что им нужно: и убийственно медленный процесс кодировки файлов, и идеально чистое качество MP3-файлов.
Существует еще один метод кодировки в формате MP3, о котором в обществе принято умалчивать. Вы можете получить его в виде отдельной DLL-библиотеки на сайте Института Фраунхоффера. Его уникальность заключается в том, что результат кодирования предстает не в .mp3, а в .wav-файле. Это так называет MPEG Wave Layer-III формат. Если у вас установлена эта библиотека, вы сможете сохранять ваши записи в этот формате практически из любой программы, работающей со звуком в Windows. С другой стороны, на компьютерах, не снабженных этой полезной утилитой, обычный с виду .wav-файл не прочитает даже WinAmp.

А теперь - несколько замечаний по поводу того, какую музыку можно сжимать в MP3. Этот алгоритм идеально подходит для хранения электронной музыки, всех музыкальных направлений, связанных с минимализмом. Хаус, транс и техно-записи, сделанные из стерильных, чистых синтезированных звуков, после сжатия в MP3 не потеряют ни грамма от своей электронной красоты. Даже при высокой компрессии записи будут звучать идеально. Чуть хуже приходится индустрии ломаных битов, вроде джангла, хип-хопа, drum'n'bass и обильно наполненным вокалом композициям. "Грязно" звучащие, на манер Prodigy, биты, а также вокал обречены потерять часть своего очарования при любом коэффициенте MP3-сжатия. И хуже всех придется тем записям, в которых звучат электрогитары или акустические инструменты, не говоря уже о симфоническом оркестре. Мощные гитарные рифы сильно сдают после компрессии, так что Limp Bizkit в MP3 представляет довольно жалкое подобие оригинальна - грязный гитарный драйв уходит безвозвратно. То же касается и акустических инструментов: в звучании хорошо записанного оркестра настолько важны как раз те самые "лишние" частоты, убираемые при сжатии, что после их удаления звук получается весьма убогий. Подчас не спасает даже компрессия 320kb/s. Поэтому настоятельно рекомендую покупать записи альтернативных команд и классики только на обычных дисках. MP3-коллекция вроде "1000 минут Баха" может вас сильно разочаровать.

Ну и, напоследок, о будущем. Уже разработан и лицензирован официальный преемник MP3 - сына нарекли MP3 Pro, и его главное преимущество перед папой заключается в удвоении плотности записи. То есть файл MP3 Pro при сходном качестве занимает вдвое меньше места. Самое удивительное то, что все обычные проигрыватели смогут проигрывать файлы нового формата! Это реализованы хитроумным способом: дело в том, что файлы MP3 Pro поделены на две части. В первой из них хранится поток аудио в обычном MP3-формате, а во второй - специальная информация о высоких частотах, которую смогут понять только новые проигрыватели. При этом пока не вполне понятно, как по такой схеме будет реализовано потоковое аудио, но те немногие счастливчики, которые уже смогли послушать записи в новой компрессии, утверждают, что это нечто потрясающее. Что ж, поживем - увидим.

VQF

Этот относительно молодой формат, разработанный компанией NTT несколько лет назад, уже получил своих апологетов в Сети и имеет весьма неплохие перспективы развития. Алгоритм кодирования широко не разглашается. В любом случае, сравнивая результаты кодирования в форматах VQF и MP3, можно заметить, что алгоритмы имеют очень мало общего и основаны на совершенно разных подходах к сжатию звука. Это проявляется прежде всего в том, что VQF-файлы звучат гораздо более естественно, чем MP3 и точно передают записи с широким динамическим диапазоном - то есть живую музыку. Так же в записях VQF значительно меньше искажений на средних и низких частотах. Зато на "верхах" он проигрывает MP3 - выше 15КГц наблюдается сильный завал частот, который особенно ощущается при кодировании шумов. Все это предполагает весьма своеобразную методику сжатия аудио.

Итак, в чем же заключаются преимущества VQF перед другими форматами? Самая сильная сторона формата - степень сжатия. VQF-файл с компрессией 80Кб/с по качеству идентичен MP3-файлу, записанному в 128Кб/c. То есть степень сжатия превосходит МР3 более чем на 30%. Минута звучания достойного качества в VQF занимает немногим больше 600Кб. Это действительно значительное преимущество. Впрочем, положенная ложка дегтя в данном случае никуда не делась - минусов этот формат вовсе не лишен.
Главный недостаток алгоритма - очень неслабое потребление системных ресурсов. При проигрывании VQF на каком-нибудь P166 на выполнение остальных задач процессор будет просто неспособен. А уж про скорость кодирования файлов вообще можно слагать песни. Длинные песни. Скорость просто убийственная, 3-4 минуты звучания на P200MMX при полной остановке других приложений могут кодироваться минут двадцать. Некоторые кодировщики, впрочем, способны кодировать файлы за время значительно меньшее, чем время звучания самого кодируемого файла, но в их системных требованиях рекомендуется запастись чем-нибудь вроде Pentium 4.

Еще один серьезный недостаток VQF, который, впрочем, также касается владельцев не слишком "продвинутого" оборудования - на многих дешевых звуковых платах файлы VQF звучат просто ужасающе. Не вполне ясно, с чем связан подобный эффект, но факт остается фактом: если у вас десятидолларовая "пищалка", то и звук из VQF вы скорее всего получите соответствующий. На десять долларов. Разработчики формата рекомендуют использовать Hi-Fi платы, красующиеся на полках магазинов с ценниками в $150 и выше. Впрочем, недорогие карты семейства SB Live!, а также другие достойно сделанные экземпляры все-таки воспроизводят VQF с приемлемым качеством. Похоже, что преобразователи на качественных звуковых платах, в отличие от дешевых поделок, способны сгладить некую "зернистость", получаемую при раскодировании VQF-потоков. Тем не менее истина все еще где-то там.

После всего вышесказанного, спросите вы, для чего же он такой нам нужен-то? На самом деле VQF - это формат, предназначенный для самодеятельных рокеров, получивших доступ в Интернет. Как ни странно, но это так - большая часть файлов в этом формате, находящихся в Сети, содержат в себе композиции именно рокерской и акустической направленности. Все дело в том, что VQF очень хорош для акустических записей. Малые искажения, чуть "подрезанные" верхи и широта динамического диапазона делают его незаменимым форматом для записи живых инструментов и всевозможных гитар. В сочетании с сильной компрессией все эти преимущества отлично подходят для использования VQF, скажем, начинающими музыкантами, желающими поведать о себе миру и не готовых при этом слишком долго закачивать свои демо-записи в Сеть.

Для проигрывания VQF-файлов существуют как специальные плееры, вроде культового K-Jofol, так и плагины к вездесущему WinAmp'у. Тут обнаруживается еще одна особенность формата: у него не работает перемотка! Неприятный сюрприз. Впрочем, наука уже додумалась, как обойти этот минус, и перемотку можно обнаружить - правда, пока в одном-единственном плеере. Называется он хитро - Esprit, и скачать его можно на http://www.infinityedge.com/esprit/registration.htm
Что касается кодировщиков - массу восторженных рецензий получил Yamaha SoundVQ 2.54eb1. Также многим закачкам подверглась программа TwinEncoder. Все они доступны на сайте www.vqf.com

Еще раз напоминаю, что на время кодирования следует запастись большим пакетом чипсов...

WMА

Думаю, все знают, что WMA - это детище широко популярной в народе компании Microsoft. Но все ли знают, как он к этой самой Microsoft попал? История происхождения формата WMA объясняет некоторые интересные особенности его звучания.

В 1998 году компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. История умалчивает о подробностях дальнейших событий - важно то, что через некоторое время, когда VQF начал свое шествие по умам интернетизированных рокеров, компания отделилась от проекта и на основе разработок VQF создала новый формат, получивший название Voxware Audio Codec 4.0. Он стал первым алгоритмом сжатия, обеспечивающим качество 128Кб/с MP3-файлов при цифровом потоке в 64Кб/c. Заметив его высокие характеристики при кодировании речевых сигналов, крупные телефонные компании заинтересовались новой разработкой и даже стали устанавливать ее на свои цифровые АТС. Вскоре свой орлиный взор на продукты компании обратила и Microsoft, включив поддержку Voxware Audio Codec в свой Media Player. Дальше все пошло по отработанному уже сценарию: Microsoft покупает Voxware и финансирует доработку формата, получившего впоследствии имя Windows Media Audio.

Вот такая история. Главный вывод - WMA является чуть ли не прямым потомком формата VQF, так что понятно, откуда растут его достоинства и проблемы.

Впрочем, начнем с достоинств.

Итак, по заявлениям разработчиков, WMA предпоследней версии 7 выдает качество, не уступающее 128Кб/c MP3-файлу при сжатии 64Кб/c. Что тут можно добавить? Только то, что это правда. Сравнению подверглись закодированные именно в таком сжатии файлы с весьма интересной записью старика Puff'a Daddy - Victory. В ней, кроме считки и бита, играет шикарный симфонический оркестр, записанным с очень высоким качеством. Для компрессии в MP3 была использована программа Audioactive Production Studio. Прослушанные на четырех различных системах, начиная от десятидолларовых офисных колонок, подключенных к безымянной звуковой плате, и заканчивая студийными акустическими мониторами Event, подключенными через усилитель Onkyo к ProTools MixOne посеребренными проводами, был поставлен диагноз: идентичны. Разумеется, профессиональные колонки выдали характерные особенности разных форматов - звучание действительно разное, но общее качество оказалось примерно на одном уровне. И это при том, что файл WMA был вдвое меньше MP3... Впрочем, все это вовсе не значит, что при компрессии 64Кб/с в WMA вы получите приемлемый звук, как это заявлено в красочных пресс-релизах. Он просто не хуже 128Кб/c MP3-файлов, которые сами более чем далеки от идеала.

Отличительной чертой WMA является полное обрезание звука выше 20КГц, а также непонятное заполнение шумами пауз в композициях. Также WMA довольно груб в обращении с динамическим диапазоном и вносит в него неслабые искажения. Пожалуй, это все выявленные пока недостатки формата. К плюсам же можно смело отнести, во-первых, очень быстрое кодирование файлов, а во-вторых, наилучшее среди современных форматов качество звука при очень сильном сжатии. Таким образом, формат RealAudio, до сих пор применяющийся интернет-радиостанциями для передачи аудиопотоков с высокой компрессией, может с уверенностью выкидывать белый флаг и удаляться с поля боя.

Формат WMA подходит для кодирования самых разных записей. Низкие и средние частоты в его исполнении хороши, но начиная с 8КГц он начинает своевольничать с частотами и всячески искажать их. Также стоит еще раз упомянуть про натянутые отношения с динамикой звука. Посему диагноз таков: электронная транс- и хаус-музыка не для WMA. Зато хип-хоп, джангл и брейкбит идет "на ура" в связи с отсутствием особых претензий этих стилей на качество в высоких частотах. Акустические записи неплохи, симфонический же оркестр по-прежнему звучит неважно. Впрочем, это происходит потому, что классическая музыка похоже вообще не терпит какой-либо компрессии.

И напоследок пара слов о только что вышедшем Windows Media 8. Окончательная версия кодера еще не доступна, но, по заявлениям Microsoft, новый формат сохраняет CD-качество при сжатии 48Кб/с. У WMA больше нет конкурентов, скажете вы? Не тут-то было. Старики уже неспособны тягаться с этим бойцом, но на их смену приходят молодые. Встречайте главного на сегодняшний день конкурента WMA, годовалое детище компании Xiphophorus по имени...

OGG Vorbis

Этот формат был опубликован летом 2000 года. В это же время появилась бета-версия его кодера. Финальная версия до сих пор недоступна, поэтому приходится довольствоваться тем, что есть. А есть вот что.

После втрое более медлительного по сравнению с WMA процесса кодирования, на выходе при 128Кб/c мы получаем звук, близкий к оригинальной записи настолько, что минимальные различия проявляются исключительно на спектральных характеристиках и тысячедолларовых колонках. При кодировании самых разных звуков - от отрывков музыкальных композиций всех направлений до всевозможных шумов и шорохов OGG намного обошел по качеству свеженький WMA 8. При этом зачастую OGG-файлы были даже меньше WMA - на 5-20%.

Остается только добавить, что кроме всех своих достоинств OGG еще и совершенно бесплатен. Больше того - его исходные коды доступны для скачивания всеми желающими! Благодаря этому мне удалось выяснить основные принципы кодирования OGG-файлов. Механизм компрессии использует схожие с MP3 психоакустические модели, но по гораздо более хитроумным методикам. Кроме того, вся запись разбивается на несколько кусков и каждый из них кодируется с разным сжатием - это аналог Variable Bit Rate в MP3. В файле OGG может содержаться до 255 (!) каналов - то есть им же можно кодировать многоканальные потоки вроде Dolby Digital. Также в OGG-файлы можно встраивать графические изображения и тексты, которые могут возникать по ходу воспроизведения (тут и до караоке недалеко...).

Таким образом, единственные недостатки формата OGG Vorbis - это относительная медленность упаковки и недоработанность кодеков. Впрочем, с оптимизацией программ для упаковки OGG и эти недостатки исчезнут. Итак, формат, изначально позиционировавшийся как убийца MP3, мимоходом, одной левой прибил и внезапно выползшее детище Microsoft...

Что ко всему этому можно добавить? Время покажет, какой из четырех форматов займет первое место: MP3 Pro, VQF, WMA или OGG. Ясно одно: с ростом объемов жестких дисков и увеличением каналов доступа в Интернет звуковые файлы неизменно уменьшаются в объеме и прогрессируют в качестве. К чему все это приведет - не знает пока никто. Продолжаем слушать музыку.

Sparxxx

клево!спирит респект!!=)(правда все нереально прочитать)

DaRON

молодцы, хлопцы, респект, удивили своим знанием!-) говоря проще, моё мнение-128-говно, слишком серенкий звук, 192-хорошо, причём ощутимо, всем его советую, и в весе нормал, а 320-по-любому рулит! насчёт мп3-да, он умрёТ, но очень нескоро! новые форматы типа огг приживаются херово, да и нах они нужны если есть мп3!?

Delirium

уух... прочитал... правда только первое сообщение, но фсё равно башка идет кругом... круто!!!

$piRiT

Ну вы короче читайте, я рад что вас это заинтересовало! Интернет великая вешь! Можно найти инфы обо всем, что хочешь!

DaRON

2 $piRiT: без базара, айривер это дело поддерживает в своих последних прошивках, но это всего лишь дань времени, не более. ОГГ-щит, по качеству это срань, ведь по сути-это ВБР в переменным битрейтом 28-256. хер сделаешь там нормальное кач-во-320 постоянное! да и потом-все файло-сети стоят на мп3, весь файлэксченч на мп3, зачем от хорошего искать лучшего? грузи последний кодек ЛАМЕ, и всё будет чики-пики!

$piRiT

DaRON

2 $piRiT: прогресс идёт, но в ВБР реального качества быть не может...а то, что ты тестил-может быть, но это всё очень относительно...

$piRiT

Ну начнем с того что VBR изначально задумывался для улучшения качества звука, когда наиболее насыщенные участки композиции кодировались в более большой битрэйт, что бы сохранить максимально приближенное качество к оригиналу... Например кодировать тишину переменным битрэйтом не имеет никакого смысла, а например каких нить пролежней (Prodigy) получится выйгрышь не только в качестве, но и в размере! Если жать фаил Breathe с константой 128 кбс получишь маленький размер, но отвратный звук, если кодировать в 192 получишь улучшенный (именно улучшенный, а не копию оригинала) звук, но больший размер, а при кодировании переменным битрэйтом от 128 до 192, размер будет ближе к 128 а качество к 192.... Вот для чего придумали VBR... Другое дело, что в реализации этого алгоритма, он сам пытается определить "тяжелые" участки композиции и закодировать их в больший битрэйт, однако бывает он ошибается!

=)

vadikk

А начаналось всё о споре между 128 и 192.... Зато столько новой информации узнал!

Dimez

-------------------------MP-3 - Рулит!--------------------
--------------особенно после 192.....!----------------