От чего зависит качество цифрового звука. От каких параметров зависит качество цифрового звука

Главная / Восстановление данных

Звук представляет собой распространяющуюся чаще всего в воздухе, воде или другой среде волну с непрерывно изменяющейся интенсивностью и частотой.

Человек может воспринимать звуковые волны (колебания воздуха) с помощью слуха в форме звука различая при этом громкость и тон.

Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука.

Зависимость громкости, а также высоты тона звука от интенсивности и частоты звуковой волны

Герц (обозначается Гц или Hz) - единица измерения частоты периодических процессов (например колебаний). 1 Гц означает одно исполнение такого процесса за одну секунду: 1 Гц= 1/с.

Если мы имеем 10 Гц, то это означает, что мы имеем десять исполнений такого процесса за одну секунду.

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).

Кроме того, человек может воспринимать звук в обширном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 1014 раз (в сто тысяч миллиардов раз).

Для того, чтобы измерять громкость звука придумали и применяют специальную единицу "децибел " (дБ )

Уменьшение или увеличение громкости звука на 10 дБ соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Громкость звука в децибелах

Для того чтобы компьютерные системы могли обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую, дискретную форму с помощью временной дискретизации.

Для этого, непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек".

Временная дискретизация звука

Для записи аналогового звука и его преобразования в цифровую форму используется микрофон, подключенный к звуковой плате.

Чем гуще на графике будут располагаться дискретные полоски, тем качественнее в итоге получится воссоздать первоначальный звук

Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Чем большее количество измерений производится за одну секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую аналогового сигнала.

Каждой "ступеньке" на графике присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N (градаций), для кодирования которых необходимо определенное количество информации I , которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитывать по общей формуле N = 2 I .

Например, пусть глубина кодирования звука составляет 16 битов, в таком случае количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука

Итак, чем больше частота дискретизации и глубина кодирования звука, тем более качественным будет звучание оцифрованного звука и тем лучше можно приблизить оцифрованный звук к оригинальному звучанию.

Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно").

Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла .

Можно легко оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 канала (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы

Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Наиболее видными можно смело назвать, такие как Sony Sound Forge , Adobe Audition , GoldWave и другие.

Оцифрованный звук представляется в звуковых редакторах в наглядной визуальной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью компьютерной мыши.

Кроме того, можно накладывать, перехлёстывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объём конечного звукового файла путём изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV (формат компании Microsoft) или в форматах со сжатием OGG, МР3 (сжатие с потерями).
Также доступны менее распространённые, но заслуживающие внимания форматы со сжатием без потерь.

При сохранении звука в форматах со сжатием отбрасываются не слышимые и невоспринимаемые ("избыточные") для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном, исходном виде).

Основными параметрами, влияющими на качество цифровой звукозаписи, являются:

§ Разрядность АЦП и ЦАП.

§ Частота дискретизации АЦП и ЦАП.

§ Джиттер АЦП и ЦАП

§ Передискретизация

Также немаловажными остаются параметры аналогового тракта цифровых устройств звукозаписи и звуковоспроизведения:

§ Отношение сигнал/шум

§ Коэффициент нелинейных искажений

§ Интермодуляционные искажения

§ Неравномерность амплитудно-частотной характеристики

§ Взаимопроникновение каналов

§ Динамический диапазон

Техника цифровой звукозаписи

Запись цифрового звука в настоящее время осуществляется на студиях звукозаписи, под управлением персональных компьютеров и другой дорогостоящей и качественной аппаратуры. Также довольно широко развито понятие «домашней студии», в которой применяется профессиональное и полупрофессиональное звукозаписывающее оборудование, позволяющее создавать качественные записи в домашних условиях.

Применяются звуковые карты в составе компьютеров, которые производят обработку в своих АЦП и ЦАП - чаще всего в 24 битах и 96 кГц, дальнейшее повышение битности и частоты дискретизации, практически не увеличивает качества записи.

Существует целый класс компьютерных программ - звуковых редакторов, которые позволяют, работать со звуком:

§ записывать входящий звуковой поток

§ создавать (генерировать) звук

§ изменять существующую запись (добавлять сэмплы, изменять тембр, скорость звука, вырезать части и т.п.)

§ перезаписывать из одного формата в другой

§ конвертировать конвертировать разные аудиокодеки

Некоторые простые программы, позволяют осуществлять только конвертацию форматов и кодеков.

Разновидности цифровых аудиоформатов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования:

§ импульсно-кодовая модуляция

§ сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

§ аудиоформаты без сжатия, такие как WAV, AIFF

§ аудиоформаты со сжатием без потерь (APE, FLAC)

§ аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданные синтетически или из сэмплов заранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести формат MIDI, который не является звукозаписью, но при этом с помощью секвенсора позволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звука применяют как для массового распространения звуковых записей (CD, SACD), так и в профессиональной звукозаписи (DAT, минидиск).

Для систем пространственного звучания также можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. - DTS и Dolby Laboratories Inc. - Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена Программный кодек

Аудиокодек на программном уровне

§ G.723.1 - один из базовых кодеков для приложений IP-телефонии

§ G.729 - патентованный узкополосный кодек, который применяется для цифрового представления речи

§ Internet Low Bitrate Codec (iLBC) - популярный свободный кодек для IP-телефонии (в частности, для Skype и Google Talk)

Аудиокодек (англ. Audio codec ; аудио кодер/декодер) - компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных.

Программный кодек

Аудиокодек на программном уровне является специализированной компьютерной программой, кодеком, который сжимает (производит компрессию) или разжимает (производит декомпрессию) цифровые звуковые данные в соответствии с файловым звуковым форматом или потоковым звуковым форматом. Задача аудиокодека как компрессора заключается в предоставлении аудиосигнала с заданным качеством/точностью и минимально возможным размером. Благодаря сжатию уменьшается объём пространства, требуемого для хранения аудиоданных, а также возможно снизить полосу пропускания канала, по которому передаются аудиоданные. Большинство аудиокодеков осуществлены как программные библиотеки, которые взаимодействуют с одним или несколькими аудиоплеерами, такими как QuickTime Player, XMMS, Winamp, VLC media player, MPlayer или Windows Media Player.

Популярные программные аудиокодеки по областям применения:

§ MPEG-1 Layer III (MP3) - проприетарный кодек аудиозаписей (музыка, аудиокниги и т. п.) для компьютерной техники и цифровых проигрывателей

§ Ogg Vorbis (OGG) - второй по популярности формат, широко используется в компьютерных играх и в файлообменных сетях для передачи музыки

§ GSM-FR - первый цифровой стандарт кодирования речи, использованный в телефонах GSM

§ Adaptive multi rate (AMR) - запись человеческого голоса в мобильных телефонах и других мобильных устройствах

Звук – волна с непрерывно изменяющейся амплитудой и частотой.Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон.

Цифровой звук – это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.

В основе кодирования звука с использованием компьютеров лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала.

Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редакторы звукозаписи).

Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения.

Оцифровка звука - (или аналогово-цифровое преобразование) - технология преобразования аналогового звукового сигнала в цифровой вид, которая осуществляется путем замеров амплитуды сигнала с определенным временным шагом и последующей записи полученных значений в численном виде.

Оцифровка звука включает в себя два процесса:

процесс дискретизации (осуществление выборки сигнала по времени);

процесс квантования по амплитуде.

Процесс дискретизации по времени - процесс получения значений сигнала, который преобразуется с определенным временным шагом -шагом дискретизации .

Количество замеров величины сигнала, осуществляемых в одну секунду, называют частотой дискретизации иличастотой выборки , иличастотой семплирования (от англ. « ampling» - «выборка»).

Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.

Процесс квантования по амплитуде - процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью.

Квантование – дискретизация по уровню.

Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Каждый из 2 N возможных уровней называетсяуровнем квантования , а расстояние между двумя ближайшими уровнями квантования называетсяшагом квантования .

Число N называют разрядностью квантования , а полученные в результате округления значений амплитуды числа -отсчетами илисемплами (от англ. « sample» - «замер»).

Погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.

Оцифровка звука – итог:

Плюсы: можно закодировать любой звук (в т.ч. голос, свист, шорох, …)

Минусы: есть потеря информации, большой объем файлов

Основные параметры, влияющие на качество звука:

1. Разрядность - размерность (количество бит информации кодируемое/декодируемое при АЦП и ЦАП).

2. Частота дискретизации - частота взятия отсчетов непрерывного во времени сигнала при его дискретизации (АЦП), измеряется в Герцах.

3. Шум - нежелательные фазовые и/или частотные случайные отклонения передаваемого сигнала

Форматы звуковых файлов

WAV (Waveform audio format ), часто без сжатия (размер!)

MP 3 (MPEG -1 Audio Layer 3 , сжатие с учётом восприятия человеком)

AAC (Advanced Audio Coding , 48 каналов, сжатие)

WMA (Windows Media Audio, потоковый звук, сжатие)

OGG (Ogg Vorbis, открытый формат, сжатие)

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.

От чего будет зависеть качество оцифрованного звука?

Для качества цифрового звука существенны две вещи: качество исходной фонограммы и качество аналого-цифрового преобразователя.

С качеством исходной фонограммы вс примерно понятно. Если она кривая (с искажениями) или шумная, то никакая оцифровка е не улучшит. Ну то есть можно, путм разных обработок, в том числе и цифровых, выделить полезный сигнал, что и применяется при выделении речи на фоне внешних шумов или при выделении регулярного сигнала на фоне случайного шума (фильмы про шпинов все смотрели, да?), но если речь о музыкальной фонограмме, то есть фонограмме с широким спектром, то тут уже всякие ухищрения не помогут.

Так что будем исходить из того, что фонограмма качественная.

Тогда остатся АЦП.

Основной показатель тут - разрядность кодирования. Ясен пень, что чем она больше - тем лучше, но с другой стороны - тем сложнее и дороже такой преобразователь. На заре цифровых технологий (что не так давно и было...) оптимальным по соотношению цена/качество была признана 16-разрядная конечная запись. При меньшей разрядности страдает динамический диапазон цифровой копии фонограммы - на звуки низкого уровня (пианиссимо) приходится лишь малая часть всех разрядов, а значит - становится заметным ступенчатый характер изменения сигнала. И фильтрация по НЧ тут уже не сильно поможет (упоминания теоремы Котельникова приветствуются, но не надо забывать, что в ней молчаливо предполагается идеальное аналого-цифровое преобразование, то есть с бесконечно большой разрядностью). Поскольку всякая обработка, даже в цифровом виде, может только уменьшать эффективную разрядность, оцифровка на студиях велась и ведтся по сей день с бльшим числом разрядов.

Сейчас уже не редкость цифровые фонограммы, которые готовятся с разрядностью 24 бита (super-Audio CD, Audio-DVD). При такой разрядности удатся полностью передать динамический диапазон любого музыклального произведения, даже Болеро Равеля, которое начинается с едва слышной партии малых барабанов, а заканчивается фортиссимо всего оркестра.

Ну вот. Помимо разрядности, важное значение имеют и другие параметры АЦП, в первую очередь нелинейность и шумы. Особенно шумы. Потому что они ограничивают эффективную разрядность преобразователя. Толку от этих 24 разрядов, если последние 8 из них шумят и поэтому не несут никакой полезной информации... Уровень шума современных 24-разрядных АЦП может достигать -115 дБ при частоте выборок выше 100 кГц, это уже вполне приличный, а дифференциальная нелинейность измеряется десятитысячными долями процента. То есть такие решения запросто перекрывают возможности человеческого уха.

Оно будет зависеть от трех основных параметров:
1. Частота дискретизации (sampling rate). Она ограничивает полосу передаваемых частот: максимальная частота передаваемого сигнала ниже половины частоты дискретизации. В телефонии чаще всего применяется частота дискретизации 8 кГц, что дает теоретическую полосу немного уже 4 кГц (практически используют полосу 300-3000 Гц). А в стандарте компакт-диска используется частота 44,1 кГц, что дает возможность полностью передать спектр 20 Гц - 20 кГц. Повышение частоты дискретизации сверх этих значений не имеет смысла с точки зрения диапазона передаваемых частот, но снижает уровень интермодуляционных искажений. В стандарте DVD Audio максимальная частота дискретизации составляет 192 кГц, такую частоту дискретизации поддерживают и некоторые хорошие аудиоплаты для компьютеров (при этом полоса воспроизводимых и записываемых частот отличается от модели к модели). Другие стандартные значения -- 96, 48, 32, 22,05, 11,025 кГц.
2. Разрядность кодирования. От нее зависит динамический диапазон -- при линейном кодировании разница между полным размахом и минимальной ступенькой составляет для 8 бит 256 раз, а для 16 бит -- 65536 раз, что составляет, соответственно, 48 и 96 дБ. 48 дБ -- откровенно мало, это уровень динамического диапазона компакт-кассеты, и к тому же, кроме узкого динамического диапазона возникают неприятные искажения, особенно хорошо слышные в тихих местах -- следствие превращения гладкого сигнала в ступенчатый. При разрядности 16 бит качество звучания получается уже вполне хорошее (такую разрядность использует компакт-диск), но не идеальное во многих реальных случаях -- многие классические произведения, а также тяжелая музыка требуют большего ДД. В высококачественных системах используют 24-разрядное кодирование, хотя реальное число значащих бит не превышает 18-20. Смысла в дальнейшем наращивании разрядности нет.
3. Способ кодирования. Здесь есть две стороны. Первая -- это собственно шкала дискретизации. Она обычно линейная, но может быть и логарифмической. Это дает увеличение динамического диапазона при той же разрядности, но уровень искажений при этом выше, чем при том же динамическом диапазоне с линейной шкалой и большей разрядностью. Вторая -- это применение всевозможных алгоритмов сжатия с потерями. В связи с последними появляется понятие битрейт. Последний -- это количество бит, необходимых для кодирования одной секунды звука. Естественно, битрейт зависит от частоты дискретизации и разрядности, но также и от степени сжатия. Сжатие может быть с потерями и без них. Сжатие без потерь -- это по сути обычная архивация и на звук она не влияет. А с потерями -- на то они и потери. Кодер анализирует звуковую информацию и выбрасывает данные, руководствуясь психоакустическими соображениями: потеря чего будет меньше всего слышна. То есть слабый звук на фоне сильного, слабые высокочастотные звуки на фоне сильных среднечастотных, и так далее. На средних и высоких частотах может отбрасываться фазовая информация. В результате при сжатии записи с качеством компакт-диска в 4,5 раза (битрейт 320 kbps, mp3/Lame) воспринимаемое на слух ухудшение записи настолько незначительно, что не имея хорошей аппаратуры, разницу уловить очень сложно. А при битрейте 128 ухудшение качества звука уже очевидно и многие записи звучат просто неприятно. Но с пластмассовыми колоночками или встроенными в ноутбук динамиками и этой разницы не услышишь.