Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Q:
Почему говорят, что 32-х битный звук качественнее 16 битного?
A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]
Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]
Q: Почему всё же идет внедрение больших частот и битности?
A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука .
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума .
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Нет, честно говоря, никаких вводных слов не будет. Чтобы было сразу понятно, к чему клонит вся эта статья, сразу сформулирую её основной вывод: нет смысла распространять музыку в формате 24 бита и 192 кГц, потому что его качество редко лучше 16/44.1 или 16/48, а занимает он в 6 раз больше места.

Кое-что о человеческой психологии

В прошлом году Нил Янг* и Стив Джобс обсуждали создание сервиса для скачивания аудио в «бескомпромиссном студийном качестве», а спустя некоторое время , который должен будет использоваться для воспроизведения этого аудио. В общем, эта идея нравится инвесторам, и они совсем недавно выделили $500,000 на популяризацию этого формата. По-сути, на что выделены эти деньги? На одурачивающий маркетинг. Почему этот маркетинг работает ? Ну, он работает из-за существования парочки факторов .

Во-первых , при восприятии таких новостей люди зачастую основываются на догадках о том, как работает цифровое аудио, а не на том, как на самом деле оно работает: они предполагают, что увеличение частоты дискретизации аналогично увеличению количества кадров в секунду в видео. На самом деле такое увеличение аналогично добавлению инфракрасных и ультрафиолетовых цветов, которые мы никогда не увидим и видеть не можем в принципе. (Об этом повествует центральная часть статьи, но она будет чуть-чуть дальше.)

Во-вторых , люди могут считать, что слышат разницу в звуке, когда её на самом деле нет. Допускать такие ошибки мышления — это нормально для человека. Ошибки эти называются когнитивными искажениями. Подтверждение предубеждения, стадный инстинкт, эффект плацебо, доверие авторитету — это лишь некоторые когнитивные искажения, могущие заставить человека поверить в то, что он слышит разницу. Подтверждение предубеждения: «В 24/192 больше информации, значит я её должен слышать; о, слышу!» Стадный инстинкт вообще каким-то магическим образом заставляет людей верить в то, чего нет и быть не может. Доверие авторитету либо заставляет совершенно не критично относиться к информации, либо при сравнении со своим честным мнением отдавать предпочтение чужому мнению. В советском научно-популярном фильме «Я и другие» наглядно показываются некоторые социальные когнитивные искажения. Например, в фильме показывается следующий эксперимент: группе студентов показывают несколько портретов людей, и они должны сказать, на каких из двух портретов изображён один и тот же человек. Все студенты, кроме одного, — подставные и указывают на два портрета совершенно непохожих людей, а испытуемый, хоть изначально и не думал о таком варианте, зачастую соглашается с мнением большинства. Вы скажете: «Нет, ну я-то не такой». Вообще, вряд ли. Все мы люди, просто отличаемся тем, что в разной степени в чём-либо осведомлены. В любом случае, если бы люди не были подвластны таким когнитивным искажениям, то уже давно не работал бы маркетинг. Посмотрите кругом: люди покупают необоснованно дорогие товары и радуются этому.

Итак, 24/192 обычно не улучшает качество и это звучит как плохая новость. Хорошая новость заключается в том, что качество звучания улучшить несложно — достаточно просто купить хорошие наушники** . В конце концов улучшение качества звучания от них заметно сразу, оно не иллюзорно и радует. По крайней мере взяв наушники хотя бы в ценовом диапазоне от $100 до $200, вы будете радоваться и скажете мне спасибо за мой совет купить хорошие наушники, если, конечно, вы не купите красивые и дорогие имиджевые наушники, предназначенные совсем не для качественного воспроизведения аудио. А теперь давайте перейдём к самому интересному.

* Да, я тоже понятия не имел, кто такой Нил Янг. Оказывается, это известный канадский музыкант... уже 50 лет как известный.
** Это моё личное мнение, я не являюсь представителем каких-либо магазинов и не преследую никакой коммерческой цели.

Теорема Найквиста-Шеннона

Для того, чтобы не оказаться в ловушке мышления, попробуем с самых азов понять, из-за чего работает цифровое аудио.

Сначала чётко уясним термины (будем формулировать их так, будто они применяются только при анализе звуков).
Сигнал — функция, зависящая от времени. Например, как сигнал можно выразить электрическое напряжение в проводах аудиоаппаратуры или, скажем, давление звука на барабанную перепонку (в зависимости от момента времени).

Спектр — представление сигнала в зависимости от частоты, а не времени. Это означает, что функция выражается не как «громкость», записанная во времени, а как набор громкостей бесконечного количества гармоник (косинусоид), включенных в один и тот же момент времени. То есть изначальный сигнал может быть представлен как набор гармонических сигналов разных частот и амплитуд («громкостей»). Да, физические величины зачастую (на деле почти всегда) можно представлять таким «странным» образом (проведя преобразование Фурье над изначальной функцией). (Отображение значения спектра в произвольный момент времени — это один из самых наглядных способов изобразить визуально музыку в аудиоплеере . Замечу, что тот спектр, о котором я говорю, содержит информацию о всем промежутке времени, а не о каком-то мгновенном значении, т.к. по набору гармоник (спектру) можно воссоздать весь звуковой отрывок.)

Теорема Найквиста-Шеннона утверждает, что если сигнал имеет ограниченный спектр, то он может быть восстановлен по своим отсчётам, взятым с частотой, строго большей удвоенной верхней частоты f c : f > 2 f c . Если мы будем увеличивать частоту отсчётов, то это повлияет лишь на то, что формат цифрового аудио начнёт позволять записывать более высокие частоты — те, которые мы никак не воспринимаем. Кстати, в этой теореме говорится о сигнале, состоящем не из конечного набора частот, а из бесконечного, как в реальном звуке. Если говорить простым языком, то смысл теоремы заключается в том, что если мы возьмём какой-нибудь звуковой сигнал, содержащий только частоты, меньшие f c , и запишем (в файл) его значения через каждые 1/f секунды, то мы сможем потом воссоздать изначальный звуковой сигнал по этим значениям. Да-да, воссоздать полностью, без потери какого-либо качества вообще. Но формулировка не объясняет, как воссоздать этот звук. Вообще, это теорема из работы Найквиста «Certain topics in telegraph transmission theory» за 1928 год, в этой работе ничего не сказано про то, как воссоздать звук. А вот теорема Котельникова, предложенная и доказанная В.А. Котельниковым в 1933 году, объясняет это довольно чётко.


Что же это означает? Во-первых, обратим внимание на функцию sinc(t) = sin(t)/t. Наглядно это просто мексиканская шляпа:



Вычитание k /(2f 1 ) из t означает сдвиг шляпы в нужное место (в то самое место, где был записан отсчёт), а умножение на D k означает растягивание этой шляпы по вертикали так, чтобы её макушка совпадала с точкой отсчёта. То есть теорема утверждает, что для воссоздания звука достаточно собрать шляпы в точках, соответствующих отсчётам, причём таким образом, чтобы вершины шляп совпадали с измерениями в отсчётах. Теорему оставим без доказательства — его можно найти в почти любой литературе по обработке сигналов. Однако обращу внимание на то, что воссоздание функции по теореме Котельникова не является просто сглаживанием. Да, шляпа не влияет на значения в соседних отсчётах, но влияет на значения между ними. И когда мы имеет низкочастотный сигнал, это может выглядеть как сглаживание, но если мы имеем, скажем высокочастотный косинус, то при его изображении в виде ступенек, мы даже не поймём, что это косинус — он будет казаться просто хаотичным набором отсчётов, однако, при восстановлении получится самый настоящий и идеально гладенький косинус.



Ну что же, математически понятно, что восстановить звук возможно. Чисто теоретически. И это не значит, что устройства воспроизведения цифрового звука воссоздают звук неотличимым от оригинального, это лишь значит, что аудиоформат позволяет такое сделать. А вот как правильно подкидывать мексиканские шляпы на выход цифро-аналогового преобразователя и как донести полученный звук до уха с минимальными искажениями — это уже совсем другая магия, не имеющая отношения к данной статье. К счастью для нас, добрые инженеры уже тысячу раз подумали над тем, как им решить для нас эту задачу.

Что дают 24 бита

При обсуждении применения теоремы Котельникова к цифровому аудио мы для простоты забыли, что при квантовании (оцифровке) числа D k — это числа, записанные на компьютере, а, значит, это числа не любой точности, а какой-то определённой — той, что мы выберем для нашего аудиоформата. Это означает, что значения изначального сигнала записываются не точно, и это приводит к, вообще говоря, невозможности воссоздать оригинальный сигнал. Но как в реальности это влияет на воспринимаемый человеком звук при честном сравнении 16 и 24 битных сигналов? Проводились исследования, что лучше, 24/44 или 16/88 (да-да, именно так!), удвоение частоты качества не прибавило, а вот увеличение разрядности испытуемые определяли без проблем. В сторону 32 и 64 бит пока никто не смотрит, нет в природе устройств, которые бы могли реализовать потенциал 64-битного звука. А вот при внутренней обработке звука в музыкальных редакторах используют высокую разрядность под 64 бит и выше.

Давайте поговорим о громкости звука. Громкость звука — это субъективная величина, возрастающая очень медленно при увеличении звукового давления и зависит от него, амплитуды и частоты звука.Уровень громкости звука — это относительная величина, которая выражается в фонах и численно равна уровню звукового давления , создаваемого синусоидальным тоном частотой 1 кГц такой же громкости, как и измеряемый звук. Уровень звукового давления (sound pressure level, SPL) измеряется в дБ относительно порога слышимости синусоидальной волны в 1 кГц для человеческого уха, а при возрастании звукового давления в 2 раза, уровень звукового давления увеличивается на 6 дБ. Приведу несколько значений звукового давления:

  • 20-30 дБ SPL - очень тихая комната (да-да, комната, в которой ничего не происходит).
  • 40-50 дБ SPL - обычный разговор.
  • 75 дБ SPL - крик, смех на расстоянии 1 метр.
  • 85 дБ SPL - опасная для слуха громкость — повреждение при длительном воздействии 8 часов в день, для некоторых людей эта величина может быть меньше [Hearing damage ]. Примерно такая громкость на автостраде в час пик [Sound pressure levels ]. Не знаю как вы, но я на такой громкости никогда не слушаю музыку — это становится понятно, когда иду в закрытых накладных/охватывающих наушниках мимо шоссе и пытаюсь слушать музыку.
  • 91 дБ SPL - повреждение слуха при воздействии 2 часа в день.
  • 100 дБ SPL - это максимальное допустимое звуковое давление для наушников по нормам Евросоюза.
  • 120 дБ SPL - почти невыносимо — болевой порог.
  • 140 дБ SPL и выше — разрыв барабанной перепонки, баротравма или даже смерть.
Эта сводная таблица уровней громкости рассчитана на воспроизведение с акустических систем, где негативное влияние оказывает высокое звуковое давление на все тело.

В наушниках без особых проблем многие слушают под 130-140 дБ и никакого разрыва перепонки не случается. Слух попортить безусловно можно. Основные данные по болевым порогам получены от колонок, где наибольший вред наносят низкие частоты, которые действуют не столько на ухо, сколько на все тело, вводя в резонанс внутренние органы и разрушая их. Повредить грудную клетку от низких частот из наушников просто не реально. А вот в автомобиле от сабвуфера - в самый раз. Но более важно то, что таблица создавалась изначально под производственный шум на заводах. Ухо от наушников повредить можно на высокой громкости только в области верхних средних частот, где у уха есть собственный резонанс.

Эффективный же динамический диапазон 16-битного аудио — 96 дБ. Сравнивая 130 и 96 дБ становится понятно, что разницу в звуке мы услышать можем. Но чисто теоретически. Во-первых, 96 дБ — это величина отношения сигнал/шум в типичных источниках звука. Во-вторых, для популяризации форматов высокого разрешения на студиях часто сводят звук для CD и DVD-Audio с несколько разным усердием и в итоге покупатель может слышать посредственно сведённый материал в первом случае и хорошо сведенный во втором.

Последнее время стало модным выпускать ремастеры различных альбомов исполнителей. Но при этом большая часть таких ремастеров, сделанных на более новом оборудовании и в тяжеловесных форматах звучит существенно хуже, чем старые записи... Здесь возникает подозрение, что вместо качественного сведения талантливым звукорежиссером, все заменяется просто качественным оборудованием и уверенности, что это даст лучший результат, а если нет, то и так все раскупят.

Получается, что с позиции технических параметров 24 бит всегда будут лучше, чем 16, но услышать это можно на качественно сделанных записях, если сделать запись с радио, то там различить 16 и 24 бита будет очень сложно. Таким образом стоит гнаться не за высокими форматами, а за качественно записанными и сведенными записями и стремится к повышению качества аппаратуры.

Гонка к тяжеловесным форматам сопоставима с гонкой за мегапикселями фотоаппаратов, где любой профессионал знает, что итоговое качество от этого зависит довольно слабо.

В дорогих системах порой используют отдельную обработку в виде SRC как в , что при переводе 44.1/16>192/24 позволяет перевести ЦАП в другой режим работы и заменить его блок цифровой фильтрации сигнала (от альязинга) более совершенным внешним SRC конвертером. Так же отдельно сконвертированные файлы из 44.1/16 в 192/24 порой могут звучать лучше, но именно из-за особенностей используемого ЦАП и это дает повод задуматься над апгрейдом системы в целом.

Надо отметить, что проверка различных DVD-Audio дисков порой выдавала удручающий результат, т.к. изначальный исходник для тяжеловесного формата был взят из стандартного CD-Audio.

Дополнительно

Ну что же, если наша цель заключается в том, чтобы наслаждаться звучанием, то осталось понять, что новость про бессмысленность 24/192 даже и не плохая вовсе — она, на самом деле говорит о том, что качество звука улучшить можно, но для этого не надо гнаться за тяжеловесными форматами.

Но раз существует как минимум два мнения по поводу «16/44.1 против 24/192», то, может быть есть и ещё какие-то иные и интересные мнения? Да, есть. Как минимум есть ещё две интересные статьи с неожиданными выводами: «Coding High Quality Digital Audio » от J. Robert Stuart (статья на английском) и «24/192 Music Downloads... and why they make no sense » от Monty, разработчика формата OGG (эта статья тоже на английском, она утверждает, что 24 бита тоже бессмысленны).

Резюме

  • Нет смысла хранить аудио в 24/192, поскольку это не улучшит качество звука просто так.
  • 192 кГц бессмысленны потому, что позволяют записывать звуки с частотами, которые мы не слышим, а все слышимые звуки есть в 44.1 кГц.
  • Кстати, если бы на этих частотах содержалась какая-нибудь информация, и если бы она воспроизводилась цифро-аналоговым преобразователем, то она бы вносила дополнительные искажения (шумы) в слышимом диапазоне частот. А вы знаете причины такого поведения аудиосистемы?
  • 24 бита позволяют записывать звуки такой громкости, какую мы не можем слышать на обычной аппаратуре (или позволяет записывать громкость слышимых звуков с такой точностью, которая неотличима от 16 бит).
  • Из-за когнитивных искажений мы можем считать, что разница между 16/44.1 и 24/192 существует и заметна.
  • Многие маркетинговые ходы и стратегии основываются на когнитивных искажениях и незнании.
  • Качество звучания можно улучшить, но другими способами.

Нашли опечатку в тексте? Выделите и нажмите Ctrl+Enter . Это не требует регистрации. Спасибо.

  • Sergey B

    Доброго времени суток. Прошёл год со времени написания Вами этой статьи, а я только ещё наткнулся на неё. Если сможете, то подскажите пожалуйста. Дело в том, что версия AIMP за это время тоже изменилась и сейчас она “v.4.13 (build 1895)”. Но, в принципе, мой вопрос подойдёт и под прежние версии (не ниже версии 3.5). Прочитав Вашу статью, у меня возник вопрос. Дело в том, что я использую в AIMP “DirectSound”, который позволяет сделать вывод с разрядностью 32 bit float. Меня интересует именно разрядность. То – есть, если я воспроизвожу МР3 файл (44.1 Hz / 16 bit) то вижу, что AIMP – е прописывается “INPUT 44.1 Hz / 32 bit float. А для выхода из AIMP я установил тоже значение 32 bit float (частоту дискретизации не будем обсуждать), потому – что, почитав многочисленные статьи, я сделал вывод, что если на выходе из AIMP установить разрядность 32 bit float, то все последующие, возможные, обработки звука (например в настройках звука Windows) будут происходить в 32 bit float и благодаря этому, качество обработки в настройках звука Windows (эквалайзеры, громкость и т.д.) будут применены более качественно, чем если вывод из AIMP установить на максимальное значение с которым может работать моя звуковая карта, то – есть 24 bit. Моя встроенная звуковая карта имеет максимальное значение (24 bit). Правильно я поступил, установив в AIMP значение вывода 32 bit float, при том, что моя звуковая карта имеет максимальные значение 24 bit?

    1. Soolo Post author

      Windows в любом случае будет обрабатывать звук в разрядности 32 bit float. Только в вашем случае она их получит от АИМПа сразу в требуемом виде, а в другом случае Винда сама преобразует данные из более низкой разрядности (такое преобразование без потерь качества).
      Единственное отличие вашего выбора от обычных 32 бит в режиме WASAPI – это возможность использовать встроенный виндовый лимитер (для предотвращения клиппинга, т.е. хрипов). Для этого нужно предварительно отключить соответствующую опцию антиклиппинга в самом АИМПе. Впрочем отличия в звуке едва ли будут заметны. Гораздо правильнее, для того, чтобы избежать клиппинга, не перекручивать эквалайзер и не выставлять 100% громкость в плеере.
      Что касается встроенных Реалтеков и других карт подобного класса, я всегда говорил и говорю, что никакие манипуляции с настройками не улучшат звук, можно использовать настройки АИМПа и Windows по умолчанию: а именно WASAPI 32 bit 44.1 kHz (48 kHz).

      1. Sergey B

        Здравствуйте! Большое спасибо за то, что откликнулись и за ответ! Теперь я точно убедился в том, что лучше использовать «DirectSound», потому – что появляется возможность выбора значения вывода звука 32 bit float. Кстати, я понимаю то, что желательно не использовать эквалайзеры и всевозможные “улучшайзеры”. «DirectSound» я решил использовать именно потому, что при его выборе, в настройках вывода AIMP можно задать значение 32 bit float, а используя “WASAPI” разработчик жёстко прописал значение 32 bit. Да, Вы правы, преимущества от выбора вывода 32 bit float очевидны - при таком формате исключается клиппинг на этапе вывода звука плеером. Для случаев, когда сигнал превышает допустимый уровень, Windows применяет специальный лимитер (limiter APO) и так-как входящий в AIMP звук декодируется в 32 bit float и выводится из AIMP тоже в формате 32-bit floating point, то это является очень большим преимуществом, именно поэтому я и решил использовать «DirectSound» (хотя “WASAPI”, вроде как более новый). Будьте добры, объясните мне немного поподробнее следующее:
        При использовании (в AIMP-е) вывода «DirectSound» 32 bit float, Вы пишете выше, что нужно отключить в AIMP-е “Антиклиппинг”, потому – что используется лимитер Windows. А что происходит если (повторюсь, используя в AIMP-е вывод «DirectSound» 32 bit float) НЕ выключить “Антиклиппинг” в AIMP-е? Будет использоваться “Аниклиппинг” AIMP или “Антиклиппинг” Windows или и тот и другой (хотя, скорее всего, наверно, должен будет использоваться какой – то один)? Забегая вперёд предположим, что если, НЕ отключать “Антиклиппинг” в AIMP то использоваться будет именно он (“Антиклиппинг” AIMP) , а “Антиклиппинг” Windows в этом случае не будет использоваться (это предположение), то какой “Антиклиппинг” лучше? Если “Антиклиппинг” Windows лучше “Антиклиппинга” встроенного в AIMP, то может лучше Выключить “Антиклиппинг” встроенный в AIMP и в этом случае будет срабатывать “Антиклиппинг” Windows?
        И ещё скажите пожалуйста: Если я использую в AIMP-е «DirectSound», то появляется возможность выбора числа каналов. Я выбрал значение “Stereo”, потому – что слушаю stereo музыку через две встроенные в ноутбук муз.колонки. А если, предположим, я начну слушать музыку 5.1, через встроенные в ноутбук две муз.колонки, то нужно установить галочку “Разрешить микширование каналов”? И в этом случае, при несоответствии количества каналов источника и устройства, плеер выполняет микширование? А если (используя AIMP и ноутбук с двумя встроенными муз.колонками) при прослушивании 5.1 музыки НЕ поставить галочку в “Разрешить микширование каналов”, то AIMP будет воспроизводить только два канала из звука 5.1? То – есть AIMP НЕ будет микшировать все каналы в стерео?

        1. Soolo Post author

          преимущества от выбора вывода 32 bit float очевидны - при таком формате исключается клиппинг на этапе вывода звука плеером

          Если используется антиклиппинг АИМПа, то нужды в Limitet APO нет, соответственно, преимущество float пропадает.

          А что происходит если НЕ выключить «Антиклиппинг» в AIMP-е?

          Будет работать антиклиппинг АИМПа, Limiter APO останется незадействованным, т.к. к нему будет приходить не превышающий уровня сигнал.

          Если «Антиклиппинг» Windows лучше «Антиклиппинга» встроенного в AIMP, то может лучше Выключить «Антиклиппинг» встроенный в AIMP

          Они примерно одинаковы, если судить по тесту из этой стьи .
          Повторюсь, лучше не допускать клиппинга, чем потом его исправлять лимитерами.

          при прослушивании 5.1 музыки НЕ поставить галочку в «Разрешить микширование каналов», то AIMP будет воспроизводить только два канала из звука 5.1?

          Всё верно. Если не стоит галочка микширования, то алгоритм очень прост: лишние каналы отсекаются, а недостающие дублируются.

          1. Sergey B

            Громадное Вам спасибо за оперативные ответы! Поинтересуюсь у Вас ещё немного по поводу микширования каналов: Предположим, что я, прослушиваю 5.1 музыку через AIMP (на ноутбуке с двумя встроенными динамиками). В настройках AIMP я выбрал «DirectSound» благодаря чему появилась возможность выбора каналов и я установил “5.1 Surround”. Галочку “Разрешить микширование каналов сниму”. После этого, получается, что 5.1 звук воспроизводится AIMP-ом (5.1 каналы не микшируются), далее выходит из AIMP-а в таком – же виде (то – есть 5.1) идёт на звуковую карту. Но, так – как в ноутбуке всего два динамика, то в настройках звуковой карты, автоматически устанавливается значение “Стерео”. В этом случае получается, что так – как из AIMP-а звук пришёл 5.1, то сама звуковая карта преобразует его в стерео?

          2. Soolo Post author

            Я не исследовал этот вопрос. Думаю, что в этом случае микширование из 5.1 в 2.0 будет производить сама Windows.

  • Sergey B

    Всё понял! Спасибо! Ещё вопросик, довольно простой, ОЧЕНЬ для меня важный, но долго описывать. Итак, хочу у Вас уточнить по поводу ресемплирования не совпадающих входных и выходных частот (битность и количество каналов не будем обсуждать). Насколько я знаю, в AIMP, начиная с версии 3.5 встроен качественный ресемплер (SoX). Надеюсь, это так? Поэтому, предполагаю, лучше использовать его, чем неизвестный ресемплер Windows. У меня на ноутбуке “Sony” установлен “AIMP «v.4.13 (build 1895)»” и выбран «DirectSound». В AIMP-е в настройках вывода звука я, предположим, установил значение 48кГц. В звуковых настройках Windows установил значение 96кГц (всё это только для вопроса). Далее, используя AIMP воспроизвожу, например, “МР3 44.1кГц”. Я предполагаю, что происходит двойное ресемплирование. То – есть, сначала входящий в AIMP звук (44.1кГц) преобразуется при выходе из AIMP в 48кГц SoX ресемплером встроенным в AIMP (потому – что на выходе из AIMP я установил значение 48кГц), а потом этот звук (48кГц) ещё раз преобразуется ресемплером Windows в 96кГц (потому – что в настройках звука Windows установлено значение 96кГц). Правильно ли я рассуждаю? И если я рассуждаю правильно, то, что – бы избежать двойного ресемплирования, предполагаю, лучше использовать только SoX ресемплер AIMP (потому – что он, вроде как более качественный, чем ресемплер Windows) и в этом случае, в настройках вывода звука в AIMP-е нужно установить значение соответствующее значению заданному в настройках звука Windows (то – есть, например 96кГц установить на выходе из AIMP-е и 96кГц в настройках звука Windows). И в этом случае, ресемплирование будет происходить только в AIMP-е, а ресемлпер Windows не включится? Это очень важный для меня вопрос. Объясните пожалуйста!

    1. Soolo Post author

      Надеюсь, это так?

      выбран «DirectSound». В AIMP-е в настройках вывода звука я, предположим, установил значение 48кГц. В звуковых настройках Windows установил значение 96кГц (всё это только для вопроса). Далее, используя AIMP воспроизвожу, например, «МР3 44.1кГц».

      Да, будет двойное преобразование 44,1 >> 48 АИМПом и 48 >> 96 Виндой. В худшем случае ещё драйвер может преобразовать в третью родную для звуковой карты частоту, например, 192.
      Именно поэтому я советую всегда использовать WASAPI, что гарантированно исключит ресемплер Винды. Ну или ваш вариант: в АИМПе и в Windows установить одинаковые частоты, так же ресемплер Винды будет исключен.

  • Sergey B

    Я – бы может и стал использовать “WASAPI”, но, как уже писал, при выборе “WASAPI” автоматически устанавливается значение выхода 32 bit, а при выборе «DirectSound» можно установить значение 32 bit float.
    В AIMP – е, в директории “Параметры преобразования” есть “Передискритизация”. Так – вот ползунок у меня сдвинут полностью вправо (качество). Правильно ли я понимаю, что этот ползунок регулирует качество работы SoX ресемплера? То – есть, если установить так, как установлено у меня, то – есть до упора вправо (максимальное качество), то ресемплер будет работать на полную мощность, но медленнее и больше нагружать компьютер? И если это так, то что будет если ползунок сдвинуть полностью влево (предпочтение отдаётся скорости, а не качеству ресемплирования), то в этом случае ресемплер всё – равно будет работать, только менее качественно? На каком положении лучше оставить (учитывая, что мощности компьютера достаточно)?

    1. Soolo Post author

      Мои исследования не выявили зависимости загруженности пооцессора от уровня качества ресемплера. Возможно, на более слабых машинах будет чувствоваться разница. А качество ресемплирования да, меняется, максимальное, естественно, справа.

  • Sergey B

    Здравствуйте! Ещё раз более внимательно прочитал Вашу статью (находящуюся выше этих комментариев) и засомневался в правильности мною установленных значений частоты дискретизации и разрядности в настройках звука Windows 7. Итак, я зашёл в настройки звука Windows и увидел, что максимальные значения, которые можно выбрать это 192 Hz/24 bit. Не являюсь специалистом в этих показателях, но предполагаю, что это максимальные значения моей звуковой карты. Может коротко подскажете мне так это или нет?
    Как я писал выше, в настройках AIMP выбрал «DirectSound», установил вывод 32 bit float/96 Hz. Выключил в AIMP-е “Антиклиппинг” (пусть используется “Антиклиппинг” Windows). В настройках вывода AIMP я решил установить значение 96 Hz потому, что это число является неким промежуточным кратным значением, ведь если я буду слушать музыку 44.1 или 48 Hz, то ресемплингом AIMP она (перед выходом из AIMP) преобразуется в заданные мной 96 Hz и если мною прослушиваемая музыка будет 192 Hz, то она так же преобразуется в 96 Hz. Поэтому, 96 Hz – это некое универсальное значение. Для того, что-бы использовался только ресемплер AIMP, я и в настройках звуковой карты выбрал 96 Hz.
    Мне не понятно следующее:
    Так-как, в настройках звука Windows (звуковой карты) можно выбрать максимальное значение 192 Hz, то при поступлении (на звуковую карту) звука имеющего 96 Hz, не преобразует ли она (звуковая карта) этот звук (с помощью ресемплера Windows) в максимальный (192 Hz), с которым она может работать? Я предполагаю, что не преобразует, а отправляет на ЦАП именно с заданным в ней значением, то-есть в моём случае это 96 Hz. Подскажите пожалуйста!

    1. Soolo Post author

      Так-как, в настройках звука Windows (звуковой карты) можно выбрать максимальное значение 192 Hz, то при поступлении (на звуковую карту) звука имеющего 96 Hz, не преобразует ли она (звуковая карта) этот звук (с помощью ресемплера Windows) в максимальный (192 Hz), с которым она может работать?

      Это для меня такая же загадка. Разные карты ведут себя по-разному. Хорошие карты, скорее всего, работают именно с самой высокой частотой. Аудиофильские карты работают с той частотой, которая к ним поступает. Ну а встроенные карты, как в вашем случае, работают, я так думаю, на частоте 48 кГц 16 бит, а все эти мега цифры вроде 192 кГц 24 бит режутся драйвером. Ещё раз уточню: это только мои предположения, исследований я не проводил, т.к. не имею возможности.
      В который раз повторюсь: не парьтесь вы с настройками встроенной звуковухи, её собственные шумы и искажения сводят на нет любые попытки оптимизации.

  • Sergey B

    В AIMP-е есть возможность регулировки звука графическим эквалайзером. Но ещё присутствует отдельная регулировка низких частот (бас) в виде ползунка. Объясните пожалуйста для чего отдельная регулировка низких частот, ведь с помощью эквалайзеров можно более точно отрегулировать нужные частоты.

    1. Это пережиток прошлого.

      1. Sergey B

        Artem, не знаю являетесь ли Вы разработчиком AIMP, но выше определение того, что отдельная регулировка низких частот – это “Пережиток плошлого” совершенно не информативна и я не думаю, что в AIMP-е её оставили просто так! Отдельная регулировка высоких и низких частот называется темброблоками (в основном, используется в усилителях и является аналоговым, а не цифровым средством корректировки АЧХ). В основном ими пользуются в тех случаях, когда не хочется “заморачиваться” с эквалайзерами (если таковые имеют место быть). Поэтому, хотелось бы услышать мнение автора статьи.

        1. Soolo Post author

          Да, Артём разработчик, кстати, единственный.
          И да, отдельный бас – это тянется с первых версий АИМПа, а может ещё и с AIMP MMC PRO, просто разработчик решил не удалять фичу, т.к. пользователи к удалению функционала относятся негативно.

  • Sergey B

    И ещё вопросик! Как я писал выше, в настройках AIMP 4 выбрал «DirectSound», установил вывод “Stereo”. Слушаю стерео музыку. Вопрос: Если в настройках AIMP оставить включённой функцию “Разрешить микширование каналов” (на всякий случай, потому – что вдруг, когда – нибудь буду слушать 5.1 через две встроенные в ноутбук муз.колонки, но сейчас это не важно, потому – что я слушаю стерео и вопрос касается стерео), то прослушивая мной стереомузыка на выходе так и останется в оригинальном стерео, то – есть не будет – ли она как – нибудь обрабатываться средствами AIMP? Или, при прослушивании стерео музыки лучше выключить функцию “Разрешить микширование каналов”? Заранее благодарю!

    1. Soolo Post author

      Если количество каналов одинаковое – микширование не работает.

  • Sergey B

    Большое спасибо за информацию! Искренне прошу прощения, если обидел Артёма, дело в том, что во время общения на форумах, некоторые участники, частенько отвечают в виде коротких и малоинформативных фраз, поэтому я предположил, что Артём не является разработчиком. Ещё раз извиняюсь!

  • Sergey B

    Честно говоря, я понимаю, что одолел вас вопросами, но в основном, на интересующие меня вы ответили! Огромное вам спасибо! Но у меня осталось два вопроса:
    1.После установки «v.4.13 (build 1895)» несколько раз пробовал выбрать “WASAPI exclusive (Event или Push)”, далее сохранял, выходил из настроек AIMP, снова заходил в настройки AIMP и видел, что всё время слетает на «DirectSound»? Дело в том, что я начитался и узнал, что с помощью “WASAPI exclusive” звук с AIMP-а может идти напрямую в ЦАП, обходя настройки звуковой карты. Бывает ещё “ASIO”, но этого метода вывода вообще нет в AIMP. У меня ноутбук Sony/Windows 7/64bit. Подскажите, почему слетает “WASAPI exclusive?
    2.AIMP может воспроизводить шестиканальную музыку в формате АС-3. Если я в настройках AIMP выберу “DirectSound” 5.1 surround” и выключу функцию «Разрешить микширование каналов», то, что произойдёт с музыкальным файлом перед выходом из AIMP? Я предполагаю, что при запуске (входе) музыки через AIMP вся музыка декодируется в РСМ 32bt float (то-есть в Импульсно-Кодовую Модуляцию) и в случае 5.1 звука этот звуковой файл декодируется (раскладывается) из одного потока на отдельные звуковые каналы и получается шесть отдельных wav каналов, к которым можно применить корректировку (“Улучшайзеры” встроенные в AIMP). А что происходит с этими разложенными каналами на выходе из AIMP? Они, (будучи обработанными средствами AIMP), перед выходом из AIMP опять упаковываются в AC-3 формат и в виде одного АС-3 файла выходят из AIMP или выходят в декодированном (разложенном на отдельные wav каналы) виде? Заранее спасибо!

    1. Soolo Post author

      1. ASIO АИМП поддерживает, а вот ваша карта, по-видимому, нет. Почему слетает WASAPI exclusive – не могу знать. Нужно хотя бы видео, чтобы увидеть последовательность действий и выбираемые настройки.
      2. АИМП естественно отдаёт системе несжатые данные PCM.

  • netwixell

    Я все равно ничего не могу понять. Судя по ощущениям звук в режимах WSAPI и ASIO лучше. В режиме DirectSound звук какой то глухой, притупленный, менее звонкий, менее отчетливый, более басовый…. Я так понимаю что при определенных настройками еквалайзера в режиме DirectSound можно добиться звука как в режимах WSAPI и ASIO. Я имею ввиду если мы говорим про ноутбук или десктоп со встроеной звуковой картой. Я столкнулся с проблемой. Купил bluetooth наушники в режимах WSAPI и ASIO постоянно прерывается звук как будто идет буферизация. В режиме DirectSound наушники работают нормально.

    1. Soolo Post author

      Что за WSAPI ? Это WASAPI или WASAPI Exclusive?
      Если звук DirectSound значительно отличается (не на уровне ощущений, а когда с закрытыми глазами слышна разница) – проверьте настройки звуковой карты и настройки звука Виндовс: и там и там может быть включена обработка, которая меняет звук.

  • Sergey B

    Здравствуйте уважаемые разработчики! Вопрос по поводу дизеринга (дитеринг, dithering) в AIMP v.4.13 (build 1895). Использую метод вывода звука (из AIMP) «DirectSound», благодаря чему установил значение (вывода) битности “32 bit float”. Получается, что любой входящий в AIMP звук изначально преобразуется в “32 bit float”. Далее предоставляется возможность корректировки (эквалайзеры и т.д.) этого звука и из AIMP-а звук выходит тоже с разрядностью “32 bit float”. Объясните мне пожалуйста, нужно ли в моём случае в настройках AIMP оставлять включённой функцию “Дизеринг”, которая, как я понимаю, нужна для понижения (например из 24 bit в 16 bit) разрядности? Ведь, как я уже написал выше, изначально, AIMP весь входящий звук, преобразует в “32 bit float”, то – есть получается, что если звук изначально был например 16bit или 24 bit, то при входе в AIMP он преобразуется в “32 bit float”, а насколько я знаю (хотя, возможно ошибаюсь) “Dithering” не требуется при повышении разрядности. И, так – как звук на входе в AIMP преобразуется в “32 bit float” и на выходе я установил “32 bit float”, то при выходе из AIMP понижения разрядности не происходит и я предполагаю, что “Dithering” не нужен?
    Если вас не затруднит, может быть объясните мне, когда требуется “Dithering”, только для понижения разрядности или и для повышения?
    В каком именно месте требуется “Dithering”? А именно, при входе в AIMP (то – есть, если файл имеет разрядность например 16bit, а при входе в AIMP разрядность преобразуется в “32 bit float”)? Или после того, как звук уже вошёл в AIMP, преобразовался в “32 bit float” и если выходное значение не идентично входному (например вывод из AIMP установить не “32 bit float”, а, например, “24bit”), то именно в этом случае нужен “Dithering”?

    1. Soolo Post author

      32 bit float выдаёт декодер. Декодер стоит первым в цепочке обработки. Соответственно, ни одна обработка звука не может идти раньше, чем декодер.
      Дизеринг в АИМПе работает только при выводе звука с понижением разрядности до 24 или до 16 бит.
      Если вы выводите 32 float, то дизеринг работать не будет независимо от включения или выключения соответствующей опции.

  • Sergey B

    Спасибо! Объяснили коротко, но понятно. Читая в интернете всевозможные статьи связанные со звуком, частенько натыкаюсь на то, что при воспроизведении музыки тем или иным музыкальным плеером (например “foobar2000”) не вся входящая в него музыка преобразуется в 32bit float, а только lossy файлы, а lossless файлы якобы не нуждаются в этом преобразовании и после входа в муз.плеер остаются с той разрядностью с которой были изначально! Но я, для проверки, нашёл музыку в формате “FLAC 96kHz / 24bit”, открыл эту музыку с помощью AIMP и увидел то, что при входе в AIMP эта lossless музыка, так-же как и lossy, тоже преобразовалась в 32bit float. Объясните пожалуйста, прав ли я насчёт того, что при воспроизведении lossless музыки с помощью AIMP, она изначально (при входе в AIMP) преобразуется в 32bit float? И хорошо это или всё же было бы лучше, если бы lossless музыка при входе в AIMP оставалась бы с той битностью с которой была изначально (то-есть скорее всего 24bit)? Заранее спасибо!

    1. Sergey B

      Здравствуйте! В настройках AIMP-а, я установил режим вывода «DirectSound», благодаря чему предоставилась возможность выбора вывода звука 32 bit float, что я и выбрал. В настройках AIMP “Дизеринг” включен. Как вы мне ответили выше “Если вы выводите 32 float, то дизеринг работать не будет независимо от включения или выключения соответствующей опции”. Поэтому, я понял, что не смотря на включенный в AIMP-е “Дизеринг”, он (“Дизеринг”) всё – равно не включится, потому – что вывод в AIMP-е установлен 32 bit float. А где – же тогда будет происходить “Дизеринг” если в настройках звуковой карты выставить значение 16bit? В звуковой карте компьютера?

      1. Soolo Post author

        В случае DirectSound и 32 bit float дизеринг будет идти средствами звукового движка Windows.
        В статье я этот случай рассматривал (последний тест).

    2. Soolo Post author

      Да, все декодеры АИМПа по возможности расшифровывают файлы в 32 bit float, это нужно для более точной обработки звука в плеере: от эквалайзера или эффектов до банальной громкости.
      Думаю, любой нормальный плеер делает то же самое.
      И да, повышение битности – преобразование без потерь качества.

  • Sergey B

    Если в настройках звука Windows установить максимальное для звуковой карты значение 192 Hz/24 bit (и, соответственно, в настройках вывода AIMP тоже установить 192 Hz (что-бы использовался ресемплер AIMP, а не виндовый)), то, лично у меня нет уверенности в том, что это правильный выбор, потому-что нужно знать характеристики ЦАП-а, на который музыка поступает со звуковой карты с заданными значениями. А как их узнать (в ноутбуке Sony), я так и не понял. Читал, что в основном, стандартная частота у ЦАП-ов 48 Hz и кратные ей (96 Hz, 192 Hz), а глубина 24 bit. Но как точно узнать на что способен встроенный в ноутбук ЦАП, что-бы установить одинаковые значения частоты дискретизации и битности выводе из AIMP и настройках звука Windows ?! Может подскажете?

    1. Soolo Post author

      Оптимальные настройки определяются либо на слух либо с помощью измерений.
      Ну, либо из какого-либо надёжного источника узнать с какими цифрами работает ЦАП.
      Один из надёжных источников – даташит на микросхему ЦАПа. Имя микросхемы либо подсмотреть на корпусе микросхемы (нужно разбирать ноут), либо, как вариант, тестовая программа какая-нибудь подскажет. Ещё варианты: форумы, обзоры видео или в картинках.
      А проще всего забить, если на слух не слышно разницы.

  • Sergey B

    Здравствуйте! Выше я Вам писал, что после установки «v.4.13 (build 1895)» несколько раз пробовал выбрать «WASAPI exclusive (Event или Push)», далее сохранял, выходил из настроек AIMP, снова заходил в настройки AIMP и видел, что всё время слетает на «DirectSound»? Оказывается дело в том, что нужно было зайти в настройки звука Windows (настройки звуковой карты) и установить галочку в директории “Разрешить приложениям использовать устройство в монопольном режиме” и на всякий случай установил галочку в чуть ниже находящейся директории “Предоставить приоритет приложениям монопольного режима”. После этого, я в настройках AIMP выбрал “WASAPI Exclusive (Event): Громкоговоритель и наушники (Realtek High Definition Audio)” и всё заработало. Но, изначально мне было не понятно, почему ещё есть “WASAPI Exclusive (Event): Windows Default”.
    Подскажите, чем отличаются “WASAPI Exclusive (Event): Громкоговоритель и наушники (Realtek High Definition Audio)” от “WASAPI Exclusive (Event): Windows Default”? Кстати, это касается не только WASAPI Exclusive (Event), а так-же “DirectSound” и обычного “WASAPI”.
    При выборе “”WASAPI Exclusive (Event)” появилась возможность выбора разрядности “16bit” и “24 Bit (i32)”. Что обозначает “24 Bit (i32)”? Спасибо!

    1. Soolo Post author

      Windows Default – устройство, выбранное в Винде по умолчанию. АИМП позволяет пользоваться не только устройством по умолчанию, а любым звуковым устройством.
      24 Bit (i32) – точно не помню, что-то вроде эмуляции 24 бит, но передача данных идёт в 32 битном формате. Грубо говоря, сначала идёт понижение разрядности, затем повышение. Данные 32 бита, а параметры, как у 24 бит. Для чего нужно – не знаю. Предполагаю, это из-за неудобности 24 бит для языков программирования.

    2. 24 bit (i32) – означает, что формат сэмпла = 32 бита, но значащих из них 24

  • Sergey B

    То-есть, если я в AIMP-е использую вывод “WASAPI Exclusive” и в компьютере находится 24-ёх битный ЦАП, то в настройках AIMP стоит установить вывод 24 bit (i32)? Потому-что если в настройках AIMP установить вывод 16 bit, то весь выходящий из AIMP звук (даже 24-ёх битный) будет преобразовываться средствами AIMP в 16 bit, а это не очень хорошо, потому-что ЦАП 24-ёх битный и может работать с 24-ёх битным звуком. То-есть, я предполагаю, что вывод 24 bit (i32) более качественный чем 16 bit?

  • Sergey B

    Здравствуйте! У меня в ноутбуке установлен “AIMP v.4.13 (build 1895)», метод вывода (из AIMP-а) звука «WASAPI exclusive (Event)» на встроенные муз.колонки. Очень много читал о том, что (в отличие от методов “DirectSound” и “WASAPI shared”) используя в музыкальном плеере метод «WASAPI exclusive» обходятся стороной значения частоты дискретизации и разрядности заданные в системном микшере Windows (в настройках звука Windows в вкладке “Дополнительно”). Поэтому вопрос: Нужно устанавливать частоту дискретизации и разрядность непосредственно в AIMP-е, потому – что звук, минуя микшер звуковой карты (меня интересуют именно настройки частоты дискретизации и разрядности в настройках Windows) пойдёт сразу на ЦАП ноутбука?
    И ещё вопрос: В настройках AIMP-а, “Размер кэша” – это буфер на тот случай, если музыка начнёт заикаться?

    1. Soolo Post author

      При выводе WASAPI Exclusive звуковые данные обходят микшер и прочие обработчики. Частота, установленная в АИМПе, пойдёт на драйвер.
      Кэш нужен для случаев нагрузки на винчестер, когда плеер не может получать своевременно данные и начинает заикаться.

      1. Sergey B

        Спасибо за ответ! Вы написали: “При выводе WASAPI Exclusive звуковые данные обходят микшер и прочие обработчики. Частота, установленная в АИМПе, пойдёт на драйвер.”
        Если Вы имели в виду драйвер звуковой карты, то в моём понимании: в компьютере есть звуковая карта и пока не установишь для её звуковой драйвер, звука на компьютере не будет. А после установки звукового драйвера, появляется возможность зайти в “Свойства” любого устройства (в моём случае “Громкоговоритель и наушники”) и зайдя в его свойства и перейдя в директорию “Дополнительно” предоставляется возможность выбора частоты дискретизации и разрядности (то – есть, именно после установки звукового драйвера, предоставляется возможность выбора частоты дискретизации и разрядности). Поэтому, когда Вы пишете “Частота, установленная в АИМПе, пойдёт на драйвер” я не совсем понимаю, что Вы имеете в виду! Хотя, может я в чём – то не прав!
        Мне просто нужно знать: При использовании в AIMP-е вывода “WASAPI Exclusive”, точно ли вышедший из AIMP-а звук обходит значения не только частоты дискретизации, но и разрядности? Поэтому не имеет значения какие значения частоты дискретизации и разрядности выставлены в настройках звука Windows?

        Спасибо за ответ! Всё понял. Используя в AIMP-е “WASAPI Exclusive” и установив (в AIMP-е) разрядность именно 96kHz, обнаружил то, что при регулировке громкости в AIMP-е (то-есть используя громкость встроенную в AIMP), громкость проигрываемого AIMP-ом муз.файла регулируется без искажений. А если хоть чуть чуть сдвигаю ползунок громкости ноутбука (то-есть основную громкость ноутбука), то звук сразу искажается и становится каким-то странным, как-будто прибрали средние и низкие частоты, а высокие остались прежними. Но, после того, как я в AIMP-е переключаю разрядность с 96кГц на 48 или на 44.1кГц, то регулируя любую громкость (в AIMP-е или основную громкость Windows) искажения проигрываемой в этот момент музыки не образуются. Всё это происходит в ноутбуке с встроенной звуковой картой “Realtek alc275”, при прослушивании музыки через встроенные в ноутбук динамики. Размер кэша (в AIMP-е) пробовал увеличивать, но не помогает. Используя методы “DirectSound” и “WASAPI shared” (установив в AIMP-е разрядность 96кГц таких проблем нет). Может вам знакома причина?

        1. Soolo Post author

          Нет, не знакома

      2. MeloMan

        Здравствуйте. Очень интересная ветка! Спасибо. У меня К Вам вопрос Soolo (может и разработчик поможет). Использую версию AIMP 3.60 (билд 1603). Слушаю музыку на ноуте через Bluetooth. Вопрос как настроить Винду7 и Aimp на максимально качество вывода звука по блютузу. В свойствах самой Винды (звуковые устройтва) есть возможность выбора между моно или стерео с дискретизацией 48Khz. Читал что некратная передискретизация (то есть с 44100 на 48000) вносит существенные искажения и меломаны в целом рекомендуют избегать такой передискретизации и слушать в изначальной варианте. У меня вся музыка с частотой 44100 Гц, да и большинство интернет станций стримят с частотой 44100 Гц. В Аимпе в режиме DirectSound: Динамики(Аудио Bluetoth) есть возможность выбора частоты от 8 000 до 192 000 и разрядности от 16 до 32 Float . То есть для блютуз режима можно кратно повысить частоту до 172 000 и выбрать разрядность 32 Float. Не буду врать, разницы между 44100 и 172000 в своих наушниках не услышал, но чисто для теории. Действительно ли на выходе по блютуз каналу через AIMP можно получить звук с максимальным качеством. Просто есть подозрение, что звук в конечном итоге после AIMPA попадает на виндовый блютуз сток в котором тупо стоит 48Hz и 16 бит и чихал он (блютузсток) на кратную передискретизацию в 172000и разрядность 32 Floa, которые настроены в самом АИМПе? Что скажите?

        Как из ведра звук не будет. Реалтеки давно уже выдают приемлемый звук.
        Звуковая карта – это последнее, что нужно улучшать в звуковой системе.
        Наибольший вклад в звук даёт акустика / наушники. Всё остальное влияет на порядки меньше.

      3. aleksys

        Всё правильно он делает, что пытается разобраться в теории. Чтоб применить на практике.

    2. LongKick64

      “Как из ведра звук не будет. Реалтеки давно уже выдают приемлемый звук.”
      Это смотря куда они его выдают) Если на колонки того же ноутбука, то приемлемым такой звук я бы точно не назвал бы) Сужу исключительно по своему ноуту, который через колонки выдает вообще что-то непонятное. Если же подключить наушники к звуковухе ноута напрямую, то тогда да, можно, впринципе, слушать)

    3. biofibre

      Добрый день. Может быть нужно было где-то на форуме эти вопросы задать, а не в блоге, но тем не менее.
      1. При конвертировании файлов в Аимпе там в настройках конвертера в пункте “параметры преобразования” в окошке “общее” нужно ли снимать галочки с пунктов: микширование каналов, дизеринг и антиклиппинг? Я вроде бы понял, что не нужно (правда я конвертировал винил-рип 32-192 wavpack в те же 32-192 в wav), но тем не менее хотелось точно знать, влияют ли они на конвертацию все или по отдельности? Наверное это зависит от формата исходного файла и какой формат результирующего будет? Если битность и частота не меняется, включение или выключение дизеринга не будет влиять? А другие параметры при этом, микширование каналов и антиклиппинг? Если битность и частота уменьшаться будут, то понятное дело дизеринг включается. А в случае с сжатыми форматами? Если, напрмер, Flac 24-96 переводить в mp3 16-44 дизеринг включаем, а антиклиппинг? У меня такое ощущение, что я сам и оветил?))) или где-то не прав?

      2. Уже всем надоевший наверное вопрос. Встроенная звуковая на микросхеме Риалтек АLС887 аппаратно по даташиту поддерживает: Four stereo DACs (8 channels) support 16/20/24-bit PCM format for 7.1 sound playback и All DACs supports 16/20/24-bit, 44.1k/48k/96k/192kHz sample rate. Пользуюсь Аимпом чаще, и немного реже Фубаром. Из прочитанного мной понял, что в диспетчере Риалтек или в свойствах звука панели управления, на устройстве динамики, выставить нужно максимальные настройки битности и частоты (а это 24-192). А в Аимпе также максимально возможные, но не меньше чем в звуковухе? У меня в Аимпе сейчас стоит Direct Sound (Динамики Риалтек HDA или Windows Default – что возможно почти одинаково в моем случае) 32 бита floating – 192кГц, или нужно 24-192 оставить? Direct Sound нужен для других звуков, потому как и музыку слушаю и другие звуки необходимы. Фонотека на 75-80% лосслесс 16-44, процентов 10-15 Hi-Res и винил рипы, остальное Lossy. Или же правильно будет выставлять битность 24 в карте, а в плеере 24 и выше по возможности, а частоту 44,1 и в карте и в плеере из-за подавляющего количества фонограмм и радиофонограмм в этой частоте? А при прослушивании Hi-Res что тогда менять всё? Или оставить по максимуму, как у меня сейчас выше описано и включать в цепочку ресемплер SoX в Фубаре и в Аимпе, который по умолчанию включен? Что-то я уже запутался.)) Распутайте меня.)

      1. Soolo Post author

        1. Разве что дизеринг можно выключить, если нет понижения битности при конвертации.
        2. В AIMP достаточно выбрать WASAPI: Windows Default. В Винде (в диспетчере Реалтек) – максимальные реально работающие параметры.

    4. Serxio

      Здравствуйте. Вопрос: правильным решением для лучшего качества выводимого звука в настройках AIMP частоту дискретизации и разрядность выставлять как у прослушиваемых аудио-файлах или максимально возможное которое поддерживает мой AV-ресивер? (192kHz/24bit). Лично я полагаю что параметры должны быть синхронны с форматом аудио-файлов (что б избежать ресемплинга), но моя фонотека содержит музыку разной дискретизации и разрядности. Не буду ведь после каждого трека менять настройки плеера. Какое решение будет верным?

      1. Soolo Post author

        Честно говоря, меня замучили этим вопросом. Единственный верный вариант – определить с какой частотой реально на уровне железа ЦАПа работает ваше оборудование. Объективно это можно сделать с помощью измерений. Субъективно – на слух. Полагаться на маркетинговые цифры в 192kHz/24bit я бы не стал.
        Если нет возможности измерений, и на слух разницы нет – то выбирайте на своё усмотрение, либо маркетинговые 192kHz/24bit, либо параметры большинства ваших файлов 44,1kHz/24bit.
        Переключать каждый раз параметры, естественно, не нужно, ресемплинг в АИМПе работает очень качественно.

  • Что является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов?

    Сохранить и прочитать потом -

    Прим. перев.: Это перевод второй (из четырех) частей развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов.

    Частота 192 кГц считается вредной

    Музыкальные цифровые файлы с частотой 192 кГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.

    И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.

    График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33 кГц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.

    Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.

    Есть несколько способов избежать дополнительных искажений:

    1. Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
    2. Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
    3. Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
    4. Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.

    Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.

    Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30 кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.

    Тесты для измерения нелинейных искажений:

    • Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц)
    • Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц)
    • Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц)
    • Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)

    Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц . При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.

    В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.

    Недопонимание процесса дискретизации

    Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.

    Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).

    Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.

    По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.

    Это только так выглядит. Эти убеждения неверны!

    Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell , поэтому можете не верить мне на слово.

    Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.

    С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.

    Избыточная дискретизация

    Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них .

    Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.

    На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).

    Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.

    Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.

    ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.

    16 бит против 24 бит

    Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?

    16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.

    Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.

    Примечания к Части 2

    6. Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.

    7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.

    8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.