Когда использовать ДИТЕР

Методика студийного использования алгоритмов дитера высокого порядка
Джеймс Мюрер (James A. Moorer)
Джулия Вэн (Julia C. Wen)
Sonic Solutions, San Rafael, CA, USA

Cтатья Джеймса Мюрера
WHITHER DITHER: Experience with High-Order Dithering Algorithms in the Studio.
перевод Антона Рау

Техника студийного использования алгоритмов дитера высокого порядка

Постоянно растет число аудиозаписей, произведенных в разрядности более 16 бит и с динамическим диапазоном, превышающим 100 dB. Так как финальным носителем готовых записей чаще всего является компакт-диск, то встает вопрос об уменьшении разрядности аудиоматериала до необходимых стандартных 16 бит. В качестве решения было предложено использовать алгоритмы нойз-шейпинга и дитера. Эти методы хороши тем, что привносимая ими в сигнал ошибка квантования находится в той части звукового спектра, в которой человеческое ухо нечувствительно к звуковым колебаниям. Данная статья объясняет, что успешное использование подобного способа понижения разрядности сильно зависит от конкретных условий и, собственно, от обрабатываемого музыкального материала. В результате, выбор конкретного механизма и параметров преобразования больше зависит от звукоинженера, выполняющего мастеринг, а не от каких-либо постулатов и советов ученых. В статье говорится также, что вопреки высказываниям некоторых компаний-производителей студийной аппаратуры и исследователей, не существует универсального алгоритма «психоакустического улучшения» звучания. Поэтому желательно, чтобы производители оборудования предоставляли клиенту широкий выбор разнообразных алгоритмов обработки. Тогда в процессе работы клиент сможет ориентироваться на получение требуемого результата.

ВВЕДЕНИЕ

Транкейт высокоразрядного цифрового сигнала до, предположим, 16 бит, приводит к ошибке в сигнале, которую нельзя исправить впоследствии. Более того, характер ошибки таков, что она значительно ухудшает качество звучания. Данная ошибка сильно модулируется сигналом, вызывая появление обертонов и маскируя полезный сигнал. Имеется множество различных способов уменьшения разрядности до 16 бит.

Мы рассмотрим те варианты, которые схематически отображены на Рис. 1.

Рисунок 1. Общая блок-схема дитера с нойз-шейпингом. В случае дитера без нойз-шейпинга, F (z ) равняется нулю. При использовании лишь нойз-шейпинга, дитер равен нулю.

Мы рассмотрим случаи, когда дитер является генератором случайного шума либо с функцией равномерного распределения вероятности одного наименее значащего бита в амплитуде, либо генератором шума с функцией треугольного распределения вероятности амплитуды удвоенного наименее значащего бита. Будем идентифицировать их как "ФРР" и "ФТР", соответственно. Существует четыре основных варианта указанной схемы, которые различаются следующим образом:

  1. Чистый транкейт. При этом дитер равен нулю и F (z) = 0. То есть, этот случай – обычное квантование. При этом округление может как происходить, так и не происходить.
  2. Простой дитер. В этом случае F (z) = 0.
  3. Нойз-шейпинг.  Тогда F (z) представляет собой некоторую ненулевую функцию фильтра, а дитер равен нулю.
  4. Нойз-шейпинг с дитером. Ни дитер, ни F (z) не равны нулю.

В зависимости от конкретных условий, имеются различные причины для выбора того или иного варианта. В любом случае, наименее приемлемым способом при работе со звуком, выглядит чистый транкейт. В вариантах 1 и 3 количество энергии в ошибке одинаково. В варианте 3 используется фильтрация  для формирования спектра ошибки квантования, но это не уменьшает абсолютную энергию ошибки. В вариантах 2 и 4 добавляется шум дитера, что увеличивает абсолютный уровень шума на 3 dB . В варианте 2 ошибка будет представлять собой белый шум. Здесь не представлены все возможные сочетания, но указанные четыре варианта схемы наиболее распространены на практике.

Назначение дитера заключается в добавлении некоторого шума, что нарушает корреляцию между ошибкой квантования и сигналом. ФРР делает первый момент ошибки некоррелированным, а ФТР делает некоррелированными первый и второй моменты ошибки. Очевидно, что другие функции распределения могут использоваться для рассогласования более высоких моментов ошибки, но в этой статье они не рассматриваются.

ЧТО ПРОИСХОДИТ СО СПЕКТРОМ?

Назначение нойз-шейпинга, как говорилось ранее, заключается в перемещении энергии шума в ту часть звукового спектра, где она будет наименее заметна для слуха. После такого объяснения можно придти в выводу о том, что идеальным вариантом шумового спектра будет тот, в котором амплитуда шума для каждой частоты расположена ниже порога слышимости.

Необходимо только определить кривую равной громкости, а затем спроектировать фильтр F (z ), который будет точно воспроизводить эту кривую. И вот тут начинаются неприятности…

ОТКРЫТИЕ ФЛЭТЧЕРА И МАНСОНА (FLETCHER-MUNSON)

В 1932 году пара исследователей из Bell Laboratories решила выяснить, казавшуюся тогда таинственной, природу процесса слухового восприятия громкости синусоид на различных частотах и при разных уровнях громкости. В своем эксперименте они использовали ламповые генераторы и усилители для получения различных звуковых тонов, которые воспроизводились через единственный динамик [5]. Слушатели, участвующие в исследовании, располагались непосредственно перед динамиком. Перед исследователями стояла задача сравнения громкости звука на различных частотах. Результатом этих экспериментов стало появление серии кривых, изображенных на Рис. 2. Ниже приводятся копии рисунков из оригинального издания статьи.

Рисунок 2. Репродукция графика кривых равной громкости, опубликованного в 1933 году Флэтчером и Мансоном [5]. Для измерений использовался сигнал, воспроизводимый единственным громкоговорителем, который располагался прямо перед слушателями.

Сразу возникает вопрос, а соответствовало ли оборудование, доступное ученым в 1932 году, поставленной задаче? Вот  что говорят сами авторы экспериментов о гармоническом искажении сигнала:

"Приемники были электродинамического типа и были расчитаны на воспроизведение обертонов примерно на 50 децибел ниже основного тона. На самых высоких уровнях, искажение от фильтров было сильнее, чем от приемников, но во всех случаях уровень громкости любого обертона был на 20 или более децибел ниже основного тона. Опыты с комбинированными тонами показали, что в этих условиях вклад обертонов в общий уровень громкости является незначительным."

Хотя их вывод о том, что обертоны не влияют на конечный результат, возможно верен, уровень погрешности в психоакустическом эксперименте Флэтчера и Мансона сегодня совершенно неприемлем.

Теперь обратимся к набору кривых, изображенных на Рис. 3. Они получены Стивенсом и Дэвисом [6]. На многих участках графика кривые отличаются от результатов Флэтчера и Мансона более чем на 10 dB. Эти кривые были получены при использовании только лишь наушников. Заметьте, что сложное поведение кривой на участке от 5 до 10 кГц, исчезает. Из этого можно сделать вывод, что изменяющееся поведение графика на участке выше 5 кГц, вызвано влиянием акустической среды, и не имеет отношения к механизму восприятия громкости ухом человека.

Рисунок 3. Набор кривых равной громкости, полученный Стивенсом и Дэвисом [6]. В данном эксперименте использовались наушники.

Проводилось множество других исследований с использованием все более совершенного оборудования, но все они лишь доказывают значительную зависимость результата эксперимента от положения динамика в пространстве, а также от свойств акустической среды. Поэтому мы делаем вывод о невозможности существования абсолютной кривой равной громкости, независимой от способа достижения звуком внутреннего уха человека. Даже такие простые операции, как воспроизведение звука через два динамика, расположенные правее и левее центра (например, в случае акустического окружения обычной жилой комнаты), могут изменить представленные на графике кривые более чем на 6 dB.

Обратите внимание также на то, как сильно форма кривых меняется при переходе от одного уровня громкости к другому. Итак, нам необходимо выбрать одну из кривых для разработки необходимого фильтра нойз-шейпинга. Это означает, что мы должны определиться не только с акустической средой прослушивания (позиция громкоговорителей и слушателей в пространстве, естественная реверберация помещения), но и с конкретным уровнем громкости.  Таким образом можно придти к выводу, что не существует абсолютной кривой равной громкости, независимой от абсолютного уровня громкости. Спектрально промодулированный шум, неслышимый при одном уровне, станет различим при увеличении громкости. Следовательно, результирующая воспринимаемая нами громкость шума будет зависеть от полной амплитуды и от спектральной формы довольно сложным образом.

Учитывая все вышесказанное, как мы сможем спроектировать фильтр нойз-шейпинга? Вообще говоря, корректно реализовать данную идею невозможно, так как заранее предугадать, как будет проводиться прослушивание сигнала, мы не в состоянии. И несмотря на это, сегодня при выпуске компакт-дисков используют нойз-шейпинг, и множество людей согласно с утверждением, что в большинстве случаев это дает положительный эффект.

Даже при том, что имеется некоторая неопределенность в определении формы кривых постоянной громкости, надо признать, что соблюдаются некоторые общие принципы. Например, ухо человека является наиболее чувствительным в диапазоне частот от 1 кГц до 5 кГц. Вне этого диапазона чувствительность человеческого уха непрерывно снижается по мере удаления от границ диапазона. Так как имеется относительно немного критических при прослушивании участков в высокочастотном диапазоне, имеет смысл размещать основную часть энергии шума в области высоких частот. Любой фильтр нойз-шейпинга реализует именно такой механизм. Пример на Рис. 4 знакомит нас с тремя различными фильтрами нойз-шейпинга, полностью учитывающими вышеперечисленные особенности.

Рисунок 4. График, отображающий три возможные Амплитудно-Частотные Характеристики дитера. Не существует способа определения «наилучшей» кривой. Выбор конкретной кривой будет чисто субъективным.

Единственным способом решить, какой из фильтров использовать в работе, является прослушивание всех вариантов и выбор того фильтра, который звучит наилучшим образом в данном конкретном случае. В современной индустрии производства аудио компакт-дисков решение о выборе фильтра нойз-шейпинга обычно принимается инженером мастеринга.

Имеется еще одно техническое соображение при выборе фильтра нойз-шейпинга. Это - возможная потеря динамического диапазона в результате использования алгоритма нойз-шейпинга более высокого порядка. На Рис. 9 изображены пять примеров квантования с дитером при увеличении порядка. Заметьте, что амплитуда нойз-шейпинга высокого порядка значительно выше, чем амплитуда нойз-шейпинга малого порядка, а тем более в случае отсутствия нойз-шейпинга вообще. Вообще говоря, абсолютная величина уровня ошибки квантования настолько мала, что эта разница не существенна, но это вводит в работу звукорежиссера ограничение на использование фильтра нойз-шейпинга. Существует звуковое оборудование, неблагоприятно реагирующее на присутствие сильной высокочастотной компоненты в сигнале. Для эффективного действия нойз-шейпинга весь аудио тракт (до воспроизводящих мониторов), должен так же точно передавать энергию квантования, как и сам полезный сигнал. Любые нелинейности в системе изменяют первоначальный результат действия нойз-шейпинга.


Рисунок 5. Исходный фрагмент фортепианной музыки длительностью примерно 22 секунды.

Рисунок 6. Исходный фрагмент звучания фортепиано с затуханием 3 dB /сек в высокой разрядности (без транкейта). Сигнал, при данном увеличении, на правой половине графика не виден.

Рисунок 7. Фрагмент звучания с транкейтом. Хорошо видно, что значения нескольких последних звучащих нот гораздо ниже значения наименее значащего бита.

Рисунок 8. Фрагмент записи фортепиано с использованием треугольного дитера, имеющим удвоенную амплитуду значения наименее значащего бита (LSB ). Обратите внимание, что только пики нескольких первых нот видны на осцилограмме. Последние несколько нот хорошо различимы на слух, хотя они имеют величину, гораздо ниже уровня LSB .

Рисунок 9. Примеры сигнала: с плоским треугольным дитером (1), дитером второго порядка (2), дитером высокого порядка применительно к низким частотам (3), дитером высокого порядка применительно к средним частотам (4) и высоким частотам (5). Энергия дитера во всех пяти случаях одинакова. Увеличение амплитуды обязано своим происхождением нойз-шейпингу.

КОГДА НЕ СТОИТ ПОЛЬЗОВАТЬСЯ НОЙЗ-ШЕЙПИНГОМ?

Учитывая "очевидные" выгоды от использования нойз-шейпинга вообще, почему иногда возникают ситуации, когда его использование нежелательно? Снова ответ на этот вопрос сильно зависит от того, какой материал мы хотим получить в результате. Если мы говорим только о музыке, которую будут слушать дома, в автомобиле, или по радио, тогда нет никаких причин, мешающих нам использовать нойз-шейпинг со всеми предоставляемыми им преимуществами. Если же звук впоследстви предполагается перед использованием каким либо образом обрабатывать, то ситуация меняется.

С каждым годом растет число компакт-дисков, содержащих сэмплерные наборы звуковых эффектов или библиотеки звуков музыкальных инструментов. И для тех, и для других обычно характерно использование технологии изменения скорости воспроизведения сэмплов, т.е. применяется изменение частоты дискретизации для получения требуемой скорости и высоты звучания ( pitch-shifting ). Если мы изменяем скорость воспроизведения звука совместно с использованием дитера и нойз-шейпинга, все спектральные компоненты сигнала будут сдвинуты, включая шум дитера. Рисунки 10 и 11 показывают спектр сигнала с дитером и нойз-шейпингом до и после операции изменения скорости воспроизведения. Обратите внимание, что энергия шума была сдвинута в наиболее воспринимаемую человеческим ухом область частот.


Рисунок 10. Спектр сигнала с дитером и нойз-шейпингом. Видно, что части сигнала хорошо заметны в низкочастотном диапазоне (шкала частот – линейная, от 0 до 24000 Гц).

Рисунок 11. Спектр сигнала с дитером и нойз-шейпингом при изменении скорости воспроизведения (частоты дискретизации) сигнала. Энергия высоких частот спектрального шейпинга при этом смещается в хорошо слышимый ухом участок спектра (шкала частот – линейная, от 0 до 24000 Гц).

Хотя в приведенном выше примере специально использовалось  чрезмерное изменение скорости воспроизведения звукового фрагмента с целью получения ярко выраженного эффекта смещения спектра, тем не менее, даже самое небольшое изменение скорости воспроизведения (частоты дискретизации) нарушает картину первоначального действия фильтра нойз-шейпинга. Таким образом, мы приходим к выводу, что звуки, предназначеные для использования в библиотеках звуковых эффектов и сэмплерных библиотеках, либо не должны иметь дитера вообще (случай Q 1), либо это должен быть просто обычный дитер (случай Q 2). При этом не должен применяться нойз-шейпинг.

А ЕСЛИ НЕ ИСПОЛЬЗОВАТЬ ДИТЕР?

На рынке звукового оборудования есть устройства оцифровки, не добавляющие шума дитера (случай Q 3), а только лишь использующие фильтр нойз-шейпинга, управляемый транкейтом. Типичным аргументом в защиту данного подхода обычно выступает то, что в полезный сигнал не привносится ничего постороннего и что не увеличивается общий уровень шума. Если источником сигнала служит конвертер с высокой разрядностью, можно утверждать, что ошибка при транкейте относительно широкополосная и способна превосходно управлять процессом нойз-шейпинга. Но при данном подходе возникает несколько проблем:

  1. Ошибка сигнала при транкейте сильно скоррелирована с самим сигналом, и, следовательно, будет им модулироваться. Это приводит к появлению эффекта "накачки" уровня шума, при котором шум становится громче или тише в зависимости от характера музыки. Тогда становится невозможным выполнение требования, согласно которому шум ошибки квантования всегда должен быть ниже порога слышимости, так как в отдельные моменты громкость шума будет резко возрастать.
  2. При затухании сигнала (и даже если сигнал имеет нулевое значение), фильтр нойз-шейпинга переходит к некоторому предельному циклу и продолжает непрерывную осцилляцию на некоторой фиксированной частоте. Так как вся энергия предельного цикла будет сконцентрирована в одной единственной серии гармоник, данный эффект может стать довольно заметным на слух.

В связи с этим, мы приходим к выводу о нецелесообразности использования системы цифровой записи, неспособной добавлять шум дитера определенного вида. Достоинтства применения дитера сильно перевешивают его недостатки, заключающиеся в увеличении  уровня шума аудиозаписи.

ЧТО ПРОИСХОДИТ ПРИ КОМПРЕССИИ ДАННЫХ?

Сегодня на рынке студийной аппаратуры представлены также продукты, использующие сжатие данных для уменьшения полосы пропускания аудиосигнала. Те из них, которые предназначены для высококачественного воспроизведения, обычно используют кодирование по поддиапазонам, т.е. сигнал разбивается на некоторое число частотных диапазонов, и затем каждый диапазон кодируется некоторым числом бит. Различия между алгоритмами заключаются в том, каким образом сигнал разбивается на поддиапазоны и какое число бит используется для каждого поддиапазона. Можно задаться вопросом, имеется ли связь между методом оцифровки и успешностью применения алгоритма сжатия данных? Точнее, имеется ли метод оцифровки сигнала, налучшим образом работающий совместно с технологией сжатия данных?

Рисунки с 12 по 15 показывают результаты действия одной простой, широко распространенной на рынке звукового оборудования, техники сжатия данных. Рис. 12 отображает, как применение алгоритма ФТР приводит к удалению высокочастотного участка сигнала. Рис. 13 показывает, что модулированный шум высокого порядка может приводить к неустойчивости в этом алгоритме, что вызывает, в свою очередь, поочередное проявление и исчезновение высокочастотной части сигнала. Следствием этого является сильное "накачивание" высокочастотной энергии. Хотя не все алгоритмы компрессии данных вызывают подобное нежелательное поведение, не следует слепо полагать, что оцифровка линейного PCM (Импульсно-Кодовая Модуляция) может безнаказанно использоваться для сжатия данных. Необходимо всегда проверять приемлимость получаемых результатов.


Рисунок 12. Спектр сигнала с обычным треугольным дитером, обработанного широко распространенной методикой сжатия данных. Обратите внимание на потерю информации о сигнале и дитере в области частот выше 15 кГц при данной технологии сжатия.

Рисунок 13. Спектр сигнала с дитером и нойз-шейпингом, обработанного широко распространенной методикой сжатия данных. Большая амплитуда дитера вызывает нестабильность в алгоритме сжатия данных. Амплитуда всей высокочастотной части осциллирует между нулем и максимальным значением. Шкала времени охватывает промежуток примерно в ½ секунды.

Рисунок 14. Спектр предыдущего сигнала при воспроизводстве высоких частот. Основная спектральная форма при этом сохраняется, но алгоритм компрессии «тратит» значительный участок своей полосы пропускания на воспроизводство кривой дитера.

Рисунок 15. Спектр вышеприведенного сигнала при отсутствии воспроизводства высоких частот. Снова мы видим, что сигнал в области выше 15 кГц теряется (данный спектр отличается от предыдущего, т.к. он охватывает меньше точек во времени).

Из данной демонстрации ясно видно, что сохраняемый на использующих компрессию данных носителях звук должен быть обработан дитером несколько иным способом, чем звук, записываемый на компакт-диск. В идеале, инженер мастеринга должен изготовить несколько различных версий каждого альбома для разных форматов финальных аудионосителей. Трудность фактической реализации данного требования, плюс  стоимость такого процесса,  вероятно, означает его невыполнимость, и изображенные на Рис. 13 результаты будут совершенно очевидными...

Все алгоритмы сжатия данных могут работать и с материалом, записанным с высокой разрядностью аналогично работе с разрядностью оцифровки в 16 бит, однако на сегодня в продаже доступны мастеринговые системы для компрессии данных, работающие только с 16-битным сигналом. Можно предположить, что имеет смысл изготавливать по две версии мастера: не переоцифрованный мастер для выпуска на носителях, использующих сжатие данных, и сконвертированный в 16 бит мастер для изготовления CD . Необходимо только, чтобы устройство кодировния могло воспринимать высокоразрядные форматы (20 или 24 бита). Это эквивалентно использованию ошибки, свойственной процессам сжатия и декомпрессии данных, вместо использования дитера и нойз-шейпинга. Это довольно логичный подход, но его успешное применение сильно зависит от конкретных особенностей алгоритма компрессии и декомпрессии данных.

ДЕЙСТВИЕ ДИТЕРА В ПАУЗАХ

Обычной практикой при CD мастеринге, стало требование наличия лишь нулевого сигнала в паузах между композициями на альбоме. Это означает, что любой алгоритм дитера должен отключаться в промежутках между треками и снова включаться в начале каждой композиции. Это можно сделать несколькими способами:

  1. если  используется ФРР (и не применяется округление при оцифровке), то процесс будет происходить автоматически, так как транкейт приведет к получению нулей при нулевом сигнале;
  2. с любым другим алгоритмом дитеринга, дитер должен явно отключаться в некоторой точке записи.

Проблема в случае 1 заключается в том, что будет существовать взаимосвязь с сигналом. Если имеется, предположим, длинный fade-out , то дитер с течением затухания сигнала будет проявляться все сильнее. Это похоже на эффект модуляции между сигналом и дитером, от которого мы уже пытались избавиться.

Проблем с вариантом 2 – несколько.

a)  Так как энергия квантования постоянна, нет никакого способа постепенного изменения воздействия дитера. Может быть только два состояния: вкл. или выкл. Это означает, что, когда вы будете отключать дитер, то появится слышимый звуковой "удар". Способа исправить это не существует.

b)  При использовании нойз-шейпинга, фильтр всегда имеет некоторое собственное состояние и некоторый предельный цикл. Даже если сигнал исчез, а дитер установлен на ноль, фильтр нойз-шейпинга все равно продолжит непрерывную генерацию. Следовательно, если вы решите отключить дитер, вам следует также сбросить состояние генератора шума.

Очевидно, что наиболее логичным решением было бы использование ФТР с нойз-шейпингом (вариант Q 4) и, одновременно с этим, оставление включенными дитера с нойз-шейпингом в межтрековых промежутках. Это потребует изменения методики мастеринга компакт-дисков, используемой сегодня, но позволит получить наиболее плавные переходы между аудио-дорожками.

ЧТО ПРОИСХОДИТ ПРИ РЕДАКТИРОВАНИИ?

При использовании нойз-шейпинга окончательный шум квантования имеет неимпульсивную автокорреляцию, которая является следствием работы фильтра формирования сигнала. Значит, если вы накладываете друг на друга два или более сигнала, которые уже были переоцифрованы, то возможно появление взаимодействия между ошибками оцифровки различных сигналов. По этой причине, все редактирование рекомендуется заканчивать до применения алгоритма конвертирования. Для этого необходимо, чтобы переоцифровка в 16 бит была последним шагом перед изготовлением CD -мастера.

ЗАКЛЮЧЕНИЕ

В заключение можно привести следующие рекомендации:

Мы надеемся, что эта статья будет служить основой для последующих дискуссий о роли квантования в процессе звукового мастеринга.

 

СПИСОК ЛИТЕРАТУРЫ

  1. M.A. Gerzon and P.G. Craven,, "Optimal Noise Shaping and Dither of Digital Signals," presented at the 87th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 37, p. 1072, Dec. 1989, preprint 2822
  2. R.A. Wannamaker, "Psycho-Acoustically Optimal Noise Shaping," presented at the 89th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 38, p. 871, Nov. 1990, preprint 2965
  3. S.P. Lipshitz, J. Vanderkooy, and R.A. Wannamaker, "Minimally Audible Noise Shaping," J. Audio Engineering Society, Vol. 39, No. 11, pp. 836-852, Nov. 1991
  4. M. Akune, R.M. Heddle, K. Akagiri, "Super Bit Mapping: Psychoacoustically Optimized Digital Recording," presented at the 93rd Convention of the Audio Engineering Society, San Francisco, Oct. 1992, preprint 3371
  5. H. Fletcher and W.A. Munson, "Loudness, Its Definition, Measurement and Calculation," J. Acoustical Society of America, Vol. 5, pp82-108, October, 1933.
  6. S.S. Stevens and H. Davis, "Hearing - Its Psychology and Psysiology," New York: Wiley, 1938, p. 124

Перевод Антона Рау

назад на звуковые технологии

При цитировании и ином использовании
материалов ссылка обязательна.
reload site