Чем физически отличается звук на виниловой пластинке от CD, и почему значительное количесство аудиофилов считают, что поледний безусловно проигрывает. В статье «Откуда берется качество винила?» я попытался докопаться до причин различий цифрового звука CD с частотой дискретизации 44 кГц и виниловых пластинок. Говоря иными словами, как изменяется форма волны или осциллограмма при преобразовании звука в цифру и обратно .

Сегодня нам предстоит обсудить: стоит ли вообще переходить на цифровые источники с высокими частотами дискретизации (96, 192 и так далее кГц) когда у нас уже имеется очень популярный формат CD 44,1 кГц, или вся эта шумиха - лишь ловкие маркетинговые ходы производителей аудиотехники, пытающихся постоянно наращивать свои объемы продаж.

Но не все свои мрачные тайны вносимых искажений нам выдала коварная Цифра. Придется посмотреть еще и на частотный спектр сигнала.
В одной из предыдущих статей я говорил о том, что любой сигнал можно представить в виде суммы синусоид . Но тут есть два момента:
1. Периодический или циклически повторяющийся сигнал любой формы можно представить, как сумму синусоид (гармоник) с разными фазами (говоря грубо, временными задержками) и частотами, кратными (умножить на 2, 3 и так далее) основной частоте этого сигнала.. Эта частота зависит от длительности цикла повтора.

2. Непериодический или неповторяющийся сигнал (а это любая фонограмма) имеет бесконечный сплошной спектр (бесконечное количество синусоид «прижавшихся друг», уровень которых, в общем случае, спадает с ростом частоты).

Приняв за истину то, что среднестатистический (повторяю: среднестатистический) человек не слышит выше 20 кГц , мы уверенной рукой отбрасываем все синусоиды, которые имеют частоту выше этой цифры (ультразвук), и считаем, что наше восприятие звука от этого ничего не теряет.

Но это - только полдела. Предположим, что мы действительно не слышим ультразвук выше 20 кГц, но, не смотря на это, он, все-таки, играет свою губительную роль в черном деле искажения исходного (на входе аудиокарты) звука при превращении последнего в цифру . И сейчас мы посмотрим, как это происходит.

Наш исходный сигнал имеет непериодическую форму (то есть форма его волны никогда не повторяется) и, следовательно, у него - бесконечный сплошной спектр . Все синусоиды, находящиеся выше 20 кГц мы назвали ультразвуком . Причем под ультразвуком на входе звуковой карты надо понимать не только сигнал, порожденный акустической волной, который практически полностью теряет все свои ультразвуковые составляющие прямо в микрофоне или звукоснимателе гитары, но к ультразвуку добавляются разнообразные наводки на высоких частотах , которые успели примешаться к исходному сигналу при прохождении им электрических цепей усилителей, АЦП и пр. (вот хотя бы помехи от Вашего компьютера).

Что происходит теперь при аналогово-цифровом преобразовании сигнала со спектром от 0 Гц до бесконечности без принятия специальных мер? Все ультразвуковые синусоиды с частотами выше половины частоты дискретизации попадают (смещаются) в слышимый диапазон .

На жаргоне цифровой обработки сигналов это называется «заворотом» спектра. И вместо чистого звука от 0 до 22 кГц (половины частоты дискретизации) мы имеем кашу из чистого звука и искаженного ультразвука (вся часть спектра, расположенная выше 22 кГц). Ультразвук смещается по частоте в область ниже половины частоты дискретизации и спектр его зеркально разворачивается: верхние частоты оказываются внизу, а нижние - вверху.

Как пример можете себе представить, дуэт баритона и тенора, которые сначала оба поют в тональности ля. А теперь представьте, что вы услышите, если бас продолжает петь в тональности ля, а тенор начинает петь в тональности соль диез, да еще и слова поет задом наперед.

Как борются с этим неприятным эффектом и имеет ли успех тяжелая борьба с техникой?

Перед тем, как оцифровать сигнал, с помощью аналогового фильтра низких частот (который пропускает через себя только низкие частоты) удаляют все ультразвуковые составляющие . И только после этого производят преобразование в цифру.

Однако, есть одно НО. Идеальных фильтров - нет и в ближайшее время, похоже, не будет. А тот спектр, который получается после фильтрации, все равно содержит ультразвуковые составляющие, мощность которых (уровни синусоид на соответствующих частотах) плавно спадает до 24-30 кГц (зависит от качества фильтра и цены звуковой карты). Иными словами, фильтр все равно полностью не искореняет ультразвук.

Потом все эти никому не нужные составляющие с частотами выше 22 кГц, нагло просочившиеся через фильтр, сохраняются в цифровой записи и становятся слышны нам, цинично накладываясь на наш чистый непорочный звук от 0 до 22 кГц.

Как же нам поступить в этом случае? Хорошая новость: при качестве имеющихся у нас фильтров, ультразвуковыми составляющими выше 30-40 кГц на его выходе уже можно пренебречь в виду их малой мощности.

У фильтра низких частот есть такой параметр, как частота среза . Это - максимальная частота, выше которой фильтр, теоретически, не пропускает звук. Но на самом деле эта граница весьма и весьма условна , так, как она устанавливается на той частоте, где ослабление проходящего через фильтр сигнала достигает определенного порога. Частотная характеристика фильтра низких частот (зависимость ослабления сигнала от частоты) имеет весьма плавную форму , постепенно все более и более ослабляя сигнал с ростом частоты.

Частотная характеристика фильтра, как снежная горка - если бы у нее имелась резкая граница (на частоте среза), то горка бы заканчивалась обрывом и санки в конце ее резко бы клевали носом в землю, останавливаясь почти мгновенно. А наша горка (как и самый лучший в мире аналоговый фильтр) - все равно плавная и мы также плавно съезжаем все дальше и дальше в область ультразвука.

Чем выше входная частота синусоиды от частоты среза фильтра, тем хуже он пропускает ее. Поэтому у частот 30-40 кГц суммарная мощность (сумма мощностей всех синусоид в этом диапазоне частот) значительно меньше суммарной мощности синусоид в диапазоне 22-30 кГц .

По этой причине, если частоты 30-40 кГц и сместятся в область слышимых частот, то будут менее заметны, чем те которые лежат от 22 (половина частоты дискретизации CD) до 30 кГц. И с ростом частоты фильтр работает все лучше и лучше.

Поэтому нам остается только увеличить частоту дискретизации таким образом, чтобы суммарная мощность ультразвуковых частот, лежащих выше половины частоты дискретизации, и пролезших через фильтр, была ничтожно мала.

Но теперь следующий вопрос: почему, если все так хорошо с 96 килогерцами, нам нужно еще лезть на частоты дискретизации 192 и выше килогерц?

Вспомним, что в статье Откуда берется качество винила? упоминалось о «ступеньках», возникающих при оцифровке сигнала за счет того, что сигнал измеряется с разрывами во времени и само значение измерений - тоже ступенчато. Кроме того в цифрово-аналоговых и аналогово-цифровых преобразователях наблюдается такое явление, как «дрожание» фазы (джиттер). В чем оно проявляется? А в том, что измерения делаются не строго равномерно, а с некоторыми задержками или опережениями во времени.

Причиной джиттера прежде всего становится нестабильность тактирующего генератора АЦП и ЦАП звуковой карты. Этот генератор задает моменты измерений. Также к джиттеру приводят помехи (наводки).

Если бы АЦП при записи и ЦАП при воспроизведении имели бы абсолютно одинаковый джиттер (расстояния между измерениями были бы одинаковыми при записи и при воспроизведении), то не было бы никакой беды . Но временное положение отсчета (фаза) все время дрожит и отклоняется, как ему взбредет в голову. Это, примерно, как петь, сидя на телеге едущей по булыжной мостовой или наливать в рюмку дорогой коньяк трясущимися руками.

Так вот, ступеньки и джиттер (хотя с ними тоже можно бороться) порождают шумы (искажения сигнала при оцифровке). Чем выше разрядность отсчета АЦП и ЦАП (16, 24, 32 и так далее бит), тем ближе восстановленное значение к оригиналу. Чем выше частота дискретизации (меньше расстояние между измерениями), тем больше измерений приходится на каждый маленький участочек сигнала. За счет большого количества измерений, в среднем он точнее (с меньшими шумами) запоминается и восстанавливается. Это примерно, как если Вы стреляете в мишень из пистолета, то в десятку можете попасть 2 патронами из 6. А если в Ваших руках автомат, то, промахнувшись пятьюдесятью пулями, попадете в цель двадцатью. Если кто и выживет от двух пуль, то от 20 - точно ноги протянет. Таким образом, и 192 кГц попадает в яблочко несколько лучше, чем 96, а тем более - 44.

Производители поговаривают уже о частотах 384 и выше кГц. Но послушать и оценить такой формат пока еще не на чем.

Резюме:

Итак нужен ли переход на высокие частоты дискретизации или нет? Вопрос неоднозначный. Повышение качества звучания - вопрос комплексный, в котором задействованна и частота дискретизации, и качество фильтра низких частот, и стабильность опорного генератора частоты дискретизации, и точность измерения / восстановления уровня АЦП / ЦАП. Механическое повышение частоты дискретизации не даст выигрыша при отсутствии работы по улучшению в остальных направлениях. И может оказаться, что аналоговый выход профессиональной звуковой карты с максимальной частотой дискретизации 48 кГц звучит лучше, чем у ширпотребовской встроенной "звуковухи" с частотой дискретизации 192 кГц.

Мы довольно много узнали обо всём этом, работая над нашим проектом, и сегодня я попробую описать на пальцах некоторые основные понятия, которые требуется знать, если вы имеете дело с цифровой обработкой звука. В этой статье нет серьёзной математики вроде быстрых преобразований Фурье и прочего - эти формулы несложно найти в сети. Я опишу суть и смысл вещей, с которыми придётся столкнуться.

Оцифровка, или Туда и обратно

Прежде всего разберёмся с тем, что такое цифровой сигнал, как он получается из аналогового и откуда собственно берётся аналоговый сигнал. Последний максимально просто можно определить как колебания напряжения, возникающие из-за колебаний мембраны в микрофоне.

Рис. 1. Осциллограмма звука

Это осциллограмма звука - так выглядит аудио сигнал. Думаю, каждый хоть раз в жизни видел подобные картинки. Для того чтобы понять, как устроен процесс преобразования аналогового сигнала в цифровой, нужно нарисовать осциллограмму звука на миллиметровой бумаге. Для каждой вертикальной линии найдем точку пересечения с осциллограммой и ближайшее целое значение по вертикальной шкале - набор таких значений и будет простейшей записью цифрового сигнала.

Воспользуемся этим интерактивным примером, чтобы разобраться в том, как накладываются друг на друга волны разной частоты и как происходит оцифровка. В левом меню можно включать/выключать отображение графиков, настраивать параметры входных данных и параметры дискретизации, а можно просто двигать контрольные точки.

В реальности для создания стерео-эффекта при записи аудио чаще всего записывается не один, а сразу несколько каналов. В зависимости от используемого формата хранения они могут храниться независимо. Также уровни сигнала могут записываться как разница между уровнем основного канала и уровнем текущего.

Обратное преобразование из цифрового сигнала в аналоговый производится с помощью цифро-аналоговых преобразователей , которые могут иметь различное устройство и принципы работы. Я опущу описание этих принципов в данной статье.

Дискретизация

Как известно, цифровой сигнал - это набор значений уровня сигнала, записанный через заданные промежутки времени. Процесс преобразования непрерывного аналогового сигнала в цифровой сигнал называется дискретизацией (по времени и по уровню). Есть две основные характеристики цифрового сигнала - частота дискретизации и глубина дискретизации по уровню.

Зелёным показана частотная составляющая, частота которой выше частоты Найквиста. При оцифровке такой частотной составляющей не удаётся записать достаточно данных для её корректного описания. В результате при воспроизведении получается совершенно другой сигнал - жёлтая кривая.

Уровень сигнала

Для начала стоит сразу понять, что когда речь идёт о цифровом сигнале, то можно говорить только об относительном уровне сигнала. Абсолютный зависит в первую очередь от воспроизводящей аппаратуры и прямо пропорционален относительному. При расчётах относительных уровней сигнала принято использовать децибелы . При этом за точку отсчёта берётся сигнал с максимально возможной амплитудой при заданной глубине дискретизации. Этот уровень указывается как 0 dBFS (dB - децибел, FS = Full Scale - полная шкала). Более низкие уровни сигнала указываются как -1 dBFS, -2 dBFS и т.д. Вполне очевидно, что более высоких уровней просто не бывает (мы изначально берём максимально возможный уровень).

Поначалу бывает тяжело разобраться с тем, как соотносятся децибелы и реальный уровень сигнала. На самом деле всё просто. Каждые ~6 dB (точнее 20 log(2) ~ 6.02 dB) указывают на изменение уровня сигнала в два раза. То есть, когда мы говорим о сигнале с уровнем -12 dBFS, понимаем, что это сигнал, уровень которого в четыре раза меньше максимального, а -18 dBFS - в восемь, и так далее. Если посмотреть на определение децибела, в нём указывается значение - тогда откуда берётся 20? Всё дело в том, что децибел - это логарифм отношения двух одноимённых энергетических величин, умноженный на 10. Амплитуда же не является энергетической величиной, следовательно её нужно перевести в подходящую величину. Мощность, которую переносят волны с разными амплитудами, пропорциональна квадрату амплитуды. Следовательно для амплитуды (если все прочие условия, кроме амплитуды принять неизменными) формулу можно записать как

N.B. Стоит упомянуть, что логарифм в данном случае берётся десятичный, в то время как большинство библиотек под функцией с названием log подразумевает натуральный логарифм.

При различной глубине дискретизации уровень сигнала по этой шкале изменяться не будет. Сигнал с уровнем -6 dBFS останется сигналом с уровнем -6 dBFS. Но всё же одна характеристика изменится - динамический диапазон. Динамический диапазон сигнала - это разница между его минимальным и максимальным значением. Он рассчитывается по формуле , где n - глубина дискретизации (для грубых оценок можно пользоваться более простой формулой: n * 6). Для 16 бит это ~96.33 dB, для 24 бит ~144.49 dB. Это означает, что самый большой перепад уровня, который можно описать с 24-битной глубиной дискретизации (144.49 dB), на 48.16 dB больше, чем самый большой перепад уровня с 16-битной глубиной (96.33 dB). Плюс к тому - шум дробления при 24 битах на 48 dB тише.

Восприятие

Когда мы говорим о восприятии звука человеком, следует сначала разобраться, каким образом люди воспринимают звук. Очевидно, что мы слышим с помощью ушей . Звуковые волны взаимодействуют с барабанной перепонкой, смещая её. Вибрации передаются во внутреннее ухо, где их улавливают рецепторы. То, насколько смещается барабанная перепонка, зависит от такой характеристики, как звуковое давление . При этом воспринимаемая громкость зависит от звукового давления не напрямую, а логарифмически. Поэтому при изменении громкости принято использовать относительную шкалу SPL (уровень звукового давления), значения которой указываются всё в тех же децибелах. Стоит также заметить, что воспринимаемая громкость звука зависит не только от уровня звукового давления, но ещё и от частоты звука:

Громкость

Простейшим примером обработки звука является изменение его громкости. При этом происходит просто умножение уровня сигнала на некоторое фиксированное значение. Однако даже в таком простом деле, как регулировка громкости, есть один подводный камень. Как я уже отметил ранее, воспринимаемая громкость зависит от логарифма звукового давления, а это значит, что использование линейной шкалы громкости оказывается не очень эффективным. При линейной шкале громкости возникает сразу две проблемы - для ощутимого изменения громкости, когда ползунок находится выше середины шкалы приходится достаточно далеко его сдвигать, при этом ближе к самому низу шкалы сдвиг меньше, чем на толщину волоса, может изменить громкость в два раза (думаю, с этим каждый сталкивался). Для решения данной проблемы используется логарифмическая шкала громкости. При этом на всей её длине передвижение ползунка на фиксированное расстояние меняет громкость в одинаковое количество раз. В профессиональной записывающей и обрабатывающей аппаратуре, как правило, используется именно логарифмическая шкала громкости.

Математика

Тут я, пожалуй, немного вернусь к математике, потому что реализация логарифмической шкалы оказывается не такой простой и очевидной вещью для многих, а найти в интернете данную формулу не так просто, как хотелось бы. Заодно покажу, как просто переводить значения громкости в dBFS и обратно. Для дальнейших объяснений это будет полезным.

// Минимальное значение громкости - на этом уровне идёт отключение звука var EPSILON = 0.001; // Коэффициент для преобразований в dBFS и обратно var DBFS_COEF = 20 / Math.log(10); // По положению на шкале вычисляет громкость var volumeToExponent = function(value) { var volume = Math.pow(EPSILON, 1 - value); return volume > EPSILON ? volume: 0; }; // По значению громкости вычисляет положение на шкале var volumeFromExponent = function(volume) { return 1 - Math.log(Math.max(volume, EPSILON)) / Math.log(EPSILON); }; // Перевод значения громкости в dBFS var volumeToDBFS = function(volume) { return Math.log(volume) * DBFS_COEF; }; // Перевод значения dBFS в громкость var volumeFromDBFS = function(dbfs) { return Math.exp(dbfs / DBFS_COEF); }

Цифровая обработка

Теперь вернёмся к тому, что мы имеем цифровой, а не аналоговый сигнал. У цифрового сигнала есть две особенности, которые стоит учитывать при работе с громкостью:

точность, с которой указывается уровень сигнала, ограничена (причём достаточно сильно. 16 бит - это в 2 раза меньше, чем используется для стандартного числа с плавающей точкой);
у сигнала есть верхняя граница уровня, за которую он не может выйти.

Из того, что уровень сигнала имеет ограничение точности, следует две вещи:

уровень шумов дробления возрастает при увеличении громкости. Для малых изменений обычно это не очень критично, так как изначальный уровень шума значительно тише ощутимого, и его можно безопасно поднимать в 4-8 раз (например, применять эквалайзер с ограничением шкалы в ±12dB);
не стоит сначала сильно понижать уровень сигнала, а затем сильно его повышать - при этом могут появиться новые шумы дробления, которых изначально не было.

Из того, что сигнал имеет верхнее ограничение уровня, следует, что нельзя безопасно увеличивать громкость выше единицы. При этом пики, которые окажутся выше границы, будут «срезаны» и произойдёт потеря данных.

На практике всё это означает, что стандартные для Audio-CD параметры дискретизации (16 бит, 44,1 кГц) не позволяют производить качественную обработку звука, потому что имеют очень малую избыточность. Для этих целей лучше использовать более избыточные форматы. Однако стоит учитывать, что общий размер файла пропорционален параметрам дискретизации, поэтому выдача таких файлов для он-лайн воспроизведения - не лучшая идея.

Измерение громкости

Для того чтобы сравнивать громкость двух разных сигналов, её для начала нужно как-то измерить. Существует по меньшей мере три метрики для измерения громкости сигналов - максимальное пиковое значение, усреднённое значение уровня сигнала и метрика ReplayGain.

Максимальное пиковое значение достаточно слабая метрика для оценки громкости. Она никак не учитывает общий уровень громкости - например, если записать грозу, то большую часть времени на записи будет тихо шелестеть дождь и лишь пару раз прогремит гром. Максимальное пиковое значение уровня сигнала у такой записи будет довольно высоким, но большая часть записи будет иметь весьма низкий уровень сигнала. Однако эта метрика всё равно является полезной - она позволяет вычислить максимальное усиление, которое можно применить к записи, при котором не будет потерь данных из-за «обрезания» пиков.

Усреднённое значение уровня сигнала - более полезная метрика и легко вычислимая, но всё же имеет существенные недостатки, связанные с тем, как мы воспринимаем звук. Визг циркулярной пилы и рокот водопада, записанные с одинаковым средним уровнем сигнала, будут восприниматься совершенно по-разному.

ReplayGain наиболее точно передает воспринимаемый уровень громкости записи и учитывает физиологические и психические особенности восприятия звука. Для промышленного выпуска записей многие звукозаписывающие студии используют именно её, также она поддерживается большинством популярных медиа-плееров. ( на WIKI содержит много неточностей и фактически не корректно описывает саму суть технологии)

Нормализация громкости

Если мы можем измерять громкость различных записей, мы можем её нормализовать. Идея нормализации состоит в том, чтобы привести разные звуки к одинаковому уровню воспринимаемой громкости. Для этого используется несколько различных подходов. Как правило, громкость стараются максимизировать, но это не всегда возможно из-за ограничений максимального уровня сигнала. Поэтому обычно берётся некоторое значение немного меньше максимума (например -14 dBFS), к которому пытаются привести все сигналы.

Иногда нормализацию громкости производят в рамках одной записи - при этом различные части записи усиливают на разные величины, чтобы их воспринимаемая громкость была одинаковой. Такой подход очень часто применяется в компьютерных видео-плеерах - звуковая дорожка многих фильмов может содержать участки с очень сильно отличающейся громкостью. В такой ситуации возникают проблемы при просмотре фильмов без наушников в позднее время - при громкости, на которой нормально слышен шёпот главных героев, выстрелы способны перебудить соседей. А на громкости, при которой выстрелы не бьют по ушам, шёпот становится вообще неразличим. При внутри-трековой нормализации громкости плеер автоматически увеличивает громкость на тихих участках и понижает на громких. Однако этот подход создаёт ощутимые артефакты воспроизведения при резких переходах между тихим и громким звуком, а также порой завышает громкость некоторых звуков, которые по задумке должны быть фоновыми и еле различимыми.

Также внутреннюю нормализацию порой производят, чтобы повысить общую громкость треков. Это называется нормализацией с компрессией. При этом подходе среднее значение уровня сигнала максимизируется за счёт усиления всего сигнала на заданную величину. Те участки, которые должны были быть подвергнуты «обрезанию», из-за превышения максимального уровня усиливаются на меньшую величину, позволяя избежать этого. Этот способ увеличения громкости значительно снижает качество звучания трека, но, тем не менее, многие звукозаписывающие студии не брезгуют его применять.

Фильтрация

Я не стану описывать совсем все аудио-фильтры, ограничусь только стандартными, которые присутствуют в Web Audio API. Самым простым и распространённым из них является биквадратный фильтр (BiquadFilterNode) - это активный фильтр второго порядка с бесконечной импульсной характеристикой , который может воспроизводить достаточно большое количество эффектов. Принцип работы этого фильтра основан на использовании двух буферов, каждый с двумя отсчётами. Один буфер содержит два последних отсчёта во входном сигнале, другой - два последних отсчёта в выходном сигнале. Результирующее значение получается с помощью суммирования пяти значений: текущего отсчёта и отсчётов из обоих буферов перемноженных на заранее вычисленные коэффициенты. Коэффициенты данного фильтра задаются не напрямую, а вычисляются из параметров частоты, добротности (Q) и усиления.

Все графики ниже отображают диапазон частот от 20 Гц до 20000 Гц. Горизонтальная ось отображает частоту, по ней применяется логарифмический масштаб, вертикальная - магнитуду (жёлтый график) от 0 до 2, или фазовый сдвиг (зелёный график) от -Pi до Pi. Частота всех фильтров (632 Гц) отмечена красной чертой на графике.

Lowpass

Рис. 8. Фильтр lowpass.

Пропускает только частоты ниже заданной частоты. Фильтр задаётся частотой и добротностью.

Highpass

Рис. 9. Фильтр highpass.

Действует аналогично lowpass, за исключением того, что он пропускает частоты выше заданной, а не ниже.

Bandpass

Рис. 10. Фильтр bandpass.

Этот фильтр более избирателен - он пропускает только определённую полосу частот.

Notch

Рис. 11. Фильтр notch.

Является противоположностью bandpass - пропускает все частоты вне заданной полосы. Стоит, однако, отметить разность в графиках затухания воздействия и в фазовых характеристиках данных фильтров.

Lowshelf

Рис. 12. Фильтр lowshelf.

Является более «умной» версией highpass - усиливает или ослабляет частоты ниже заданной, частоты выше пропускает без изменений. Фильтр задаётся частотой и усилением.

Highshelf

Рис. 13. Фильтр highshelf.

Более умная версия lowpass - усиливает или ослабляет частоты выше заданной, частоты ниже пропускает без изменений.

Peaking

Рис. 14. Фильтр peaking.

Это уже более «умная» версия notch - он усиливает или ослабляет частоты в заданном диапазоне и пропускает остальные частоты без изменений. Фильтр задаётся частотой, усилением и добротностью.

Фильтр allpass

Рис. 15. Фильтр allpass.

Allpass отличается ото всех остальных - он не меняет амплитудные характеристики сигнала, вместо чего делает фазовый сдвиг заданных частот. Фильтр задаётся частотой и добротностью.

Фильтр WaveShaperNode

Вейвшейпер () применяется для формирования сложных эффектов звуковых искажений, в частности с помощью него можно реализовать эффекты «дисторшна» , «овердрайва» и «фузза» . Данный фильтр применяет к входному сигналу специальную формирующую функцию. Принципы построения подобных функций довольно сложные и тянут на отдельную статью, поэтому я опущу их описание.

Фильтр ConvolverNode

Фильтр, производящий линейную свёртку входного сигнала с аудио-буфером, задающим некую импульсную характеристику . Импульсная характеристика - это ответ некой системы на единичный импульс. Простым языком это можно назвать «фотографией» звука. Если реальная фотография содержит информацию о световых волнах, о том, насколько они отражаются, поглощаются и взаимодействуют, то импульсная характеристика содержит аналогичную информацию о звуковых волнах. Свёртка аудио-потока с подобной «фотографией» как бы накладывает эффекты окружения, в котором была сняла импульсная характеристика на входной сигнал.

Для работы данного фильтра требуется разложение сигнала на частотные составляющие. Это разложение производится с помощью (к сожалению, в русскоязычной Википедии совершенно несодержательная , написанная, судя по всему, для людей, которые и так знают, что такое БПФ и сами могут написать такую же несодержательную статью). Как я уже говорил во вступлении, не стану приводить в данной статье математику БПФ, однако не упомянуть краеугольный алгоритм для цифровой обработки сигналов было бы неправильно.

Данный фильтр реализует эффект реверберации . Существует множество библиотек готовых аудио-буферов для данного фильтра, которые реализуют различные эффекты ( , ), подобные библиотеки хорошо находятся по запросу .

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.

Мой дедушка слушал граммофон. Молодость отца прошла под музыку, доносившуюся из динамика катушечного магнитофона. На мою молодость пришелся расцвет и закат кассетных магнитофонов. Мой сын растет в эру цифрового звука. Чтобы не отставать от времени, и обеспечить сына хорошим «звуком», решил разобраться, от чего зависит качество воспроизведения цифрового аудио сигнала.

Пообщался с друзьями меломанами. Провел информационный поиск в Интернете. В итоге пришел к выводу, что качественного звучания в цифровую эру можно добиться, если правильно выбрать 7 основных элементов современных музыкальных центров:

формат, в котором записана музыка;
проигрыватель;
цифро-аналоговый преобразователь;
усилитель;
акустику;
кабели;
питание.

Поделюсь ниже своими наблюдениями и выводами по поводу достижения качественного звучания записей в цифровых форматах.

Лирическое отступление, экспертам можно не читать.

В двух словах объясню, откуда берется звук в цифровом формате. В процессе звукозаписи микрофон преобразует механические колебания (собственно звук) в аналоговый электрический сигнал. Аналоговый сигнал в самом общем случае похож на синусоиду, которая всем нам знакома со времен средней школы. В эру аналогового звука именно этот сигнал записывался на различные носители и затем воспроизводился.

С развитием микропроцессорной техники появилась возможность записывать и хранить аудиоинформацию в цифровых форматах. Получают эти форматы с помощью процесса аналого-цифрового преобразования (АЦП).

В ходе АЦП аналоговый сигнал (нашу синусоиду из средней школы) преобразуют в дискретный (проще говоря, разрезают на части). На следующем этапе дискретный сигнал квантуют, т.е. каждому получившемуся отрезку синусоиды сопоставляют цифровое значение. На третьем этапе квантованный сигнал оцифровывают, т.е. кодируют в виде последовательности 0 и 1. Применительно к цифровой звукозаписи оцифровке подвергаются сведения об амплитуде и частоте звука.

Для записи и хранения цифровой аудиоинформации применяют цифровые аудиоформаты. Под аудиоформатом понимают набор требований к представлению звуковых данных в цифровом виде.

При рассуждении о качестве звучания цифровые форматы делят на 3 категории:

Форматы без дополнительного сжатия (CDDA, DSD, WAV, AIFF и др.);
Форматы, сжатые без потери качества (FLAC, WavPack, ADX и др.);
Форматы, в которых применено сжатие с потерями (MP3, AAC, RealAudio и др.).

Звук высокого качества получается при воспроизведении музыки, сохраненной в форматах из первой и второй категорий. В форматах третьей категории, для уменьшения объема данных, намеренно исключают часть информации. Например, информацию о скрытых частотах.

Скрытыми называют частоты, лежащие за пределами диапазона восприятия среднестатистического человека: 20 Гц – 22 кГц. Для аудиофилов этот диапазон в силу индивидуальных психофизиологических особенностей бывает шире.

Для комплектации домашней аудиотеки следует выбирать записи, сохраненные в файлах с расширениями:

*.wav, *.dff, *.dsf, *.aif, *.aiff – это файлы со звуком без сжатия;
*.mp4, *.flac, *.ape, *.wma – это наиболее распространенные файлы со звуком, сжатым без потерь.

Из истории. Говорят, что самые первые опыты по сохранению звука проводили еще древние греки. Они пытались сохранить звук в амфорах. Выглядело это примерно так: в амфору произносили слова и быстро её закупоривали. Увы, не одной такой записи не дошло до наших дней.

Выбор проигрывателя нужно начинать с понимания, в каком виде будет формироваться домашняя аудиотека. Можно по старинке покупать компакт-диски или перейти к приобретению любимой музыки через Интернет. Последний вариант имеет два весомых преимущества. Он компактен и экологичен:

Не встает вопрос о месте в квартире для хранения компакт дисков.
Не нужно выбрасывать неисправные диски в мусор.

Определились, как покупать музыку? Отлично! Если будете покупать диски – Вам нужен проигрыватель компакт-дисков. Если предпочитаете покупки через Интернет – ищите проигрыватель на жестком диске или флешпамяти. Не определились? Отлично! Ищите универсальный проигрыватель. На таком можно и диски, и файлы, купленные через сеть, послушать.

Естественно, можно превратить в проигрыватель и персональный компьютер. Но этот вариант удобен тогда, когда компьютер действительно персональный. Перспектива конкуренции за место у клавиатуры и возможные конфликты существенно снизят удовольствие от прослушивания музыки в хорошем качестве.

При выборе проигрывателя особое внимание обратите на доступные разъемы. Чем больше вариантов разъемов, тем проще будет выбрать другие элементы музыкального центра.

Проигрыватель прочитал цифровую последовательность с компакт-диска или из файла. Теперь наступает самый математический момент воспроизведения цифрового звука. Цифровой сигнал преобразуется в аналоговый. Происходит эта матемагия в ЦАП, или цифро-аналоговом преобразователе.

ЦАП может быть встроен в проигрыватель или реализован в виде отдельного блока. Задаваясь целью получить звук высокого качества, нужно остановить свой выбор на втором варианте. Встроенный преобразователь обычно уступает отдельному по качеству. Внешний ЦАП имеет собственный блок питания, встроенный запитан от общего с проигрывателем источника. При использовании внешнего ЦАП на его работу почти не влияют помехи от проигрывателя и усилителя.

Внешний ЦАП по схемотехническим решениям реализуют в 4-х основных вариантах:

Широтно-импульсный модулятор;
Схема передискретизации;
Взвешивающего типа;
Лестничного типа, или цепная R-2R схема.

При таком богатстве выбора для достижения звучания высокого качества вариант R-2R оказывается безальтернативным. За счет специальной схемы, реализованной на прецизионных сопротивлениях, в ЦАП лестничного типа удается достичь очень высокой точности преобразования.

При выборе внешнего цифро-аналогового преобразователя следует обратить внимание на две основных характеристики:

Разрядность. Хорошо, если у выбранной модели она равна 24 битам.
Максимальная частота дискретизации. Очень хорошее значение 96 кГц, великолепное 192 кГц.

Для достижения качественного звучания вместе с акустической системой нужно покупать усилитель. По сути эти два элемента аудиоцентра работают как одно целое.

Немного теории. Усилитель это прибор, который предназначен для повышения мощности аналоговых сигналов звуковой частоты. Он позволяет согласовать сигнал, полученный с ЦАП, с возможностями акустики. По типу силовых элементов усилители мощности разделяют на ламповые и транзисторные. В каждой группе присутствуют приборы с обратной связью и без обратной связи. Введение обратной связи направлено на исправление искажений, которые вносит в усиливаемый сигнал сам усилитель. Однако при получении звука без искажений приходится смириться с потерей части динамического диапазона звука.

С точки зрения подбора тандема «акустика – усилитель» важна классификация последнего по типу характеристики силового элемента. Существуют усилители с триодной и пентодной характеристикой. Пентодные усилители бывают в ламповом и транзисторном исполнении. Они подходят для полочных или простых напольных акустических систем. Для чувствительной напольной акустики с диапазоном от 90 дБ лучше подбирать усилители с триодной характеристикой.

Еще до покупки нужно постараться добиться идеального баланса между возможностями усилителя и акустики. Лучше всего прямо в магазине попросить консультантов погонять выбранную акустическую систему совместно с разными усилителями. Выбрать нужно тот комплект, который больше понравился Вашему уху.

Что такое хорошая акустическая система – это самый запутанный вопрос. Выбор акустики зависит от индивидуальных особенностей слуха человека, параметров помещения, в котором будет размещена система, и финансовых возможностей. В этой системе с тремя переменными найти золотую середину очень непросто. Поэтому рассмотрим три принципиальных варианта решения задачи.

Решение первое. Бюджетное. Можно оснастить домашний аудиоцентр «полочными» акустическими системами. Эти небольшие по размеру системы можно разместить на книжной полке. Они удобны для маленького помещения. В силу малых размеров это еще и недорогой вариант. Существенный минус такого решения состоит в том, что «полочная» акустика не даст нормального звучания басов.

Решение второе. Роскошное. Если позволяют габариты помещения и финансовые возможности, то можно купить напольную акустику. Эта система, благодаря размерам, может содержать низкочастотный динамик большого диаметра. Значит, есть шансы насладиться хорошими басами.

Решение третье. «Золотой» компромисс. Это решение подойдет для больших и маленьких помещений и приемлемо по цене. Состоит оно в приобретении сабвуфера и сателлитов. Сабвуфер отвечает за качественное воспроизведение басов. На стеллитах идет воспроизведение высоких частот.

При выборе акустики не стоит следовать никаким советам. Нужно опираться только на свой собственный слух. Еще нужно быть готовым к тому, что звучание акустики в магазине и в вашей квартире будет различным.

Выбор соединительных проводников – это вопрос, который неизбежно придется решать для достижения качественного звука. О влиянии кабеля на звучание написано много статей. Единственное, в чем авторы достигли единства, это в требовании к длине кабеля. Чем короче, тем лучше – вот золотое правило выбора соединительных кабелей.

Немного теории. Кабели подразделяют на межблочные и акустические. Межблочные служат для соединения блоков аудиоцентра, например проигрывателя и ЦАП. Акустическими кабелями осуществляется подключение акустической системы к усилителю мощности.

По типу материала проводника кабели разделяют на OFC, OCC и композитные. OFC – это кабели из бескислородной меди, полученные методом протяжки. OCC – это кабели из монокристаллической меди, полученной напрямую из расплава. Композитные – это кабели, в которых проводник состоит из нескольких материалов.

Если вы задались целью создать идеальный аудиоцентр из блоков разных производителей, постарайтесь использовать минимальные по длине соединительные кабели. И будьте готовы экспериментировать для достижения идеального качества звучания.

Наконец наш домашний комплекс для качественного воспроизведения музыки в цифровом формате собран. Теперь остался сущий пустяк. Для хорошей аппаратуры нужно качественное электропитание. Если самые дорогие «брендовые» усилители, ЦАП, проигрыватели запитать от общей сети, то ни о каком качественном звуке речи быть не может. Загрязненное помехами напряжение убьет все усилия по подбору и покупке качественных блоков для аудиоцентра.

Организуйте питание каждого блока отдельным кабелем. Кабели нужно подключить непосредственно к распределительному щитку на вводе в жилище. Розетки для подключения должны обеспечивать высокую степень фиксации штепселя. Разумно использовать сетевой фильтр, он сделает питание, а, следовательно, и звучание более чистым.

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек" (рис. 1.2).

Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации . Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 I . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3 .

При сохранении звука в форматах со сжатием отбрасываются "избыточные" для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1.22. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?
1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

1.23. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:
а) моно, 8 битов, 8000 измерений в секунду;
б) стерео, 16 битов, 48 000 измерений в секунду.

1.24. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5" (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):
а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;
б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Тематические материалы: