O que determina a qualidade do som digital? Quais parâmetros determinam a qualidade do som digital?

Lar / Recuperação de dados

Somé uma onda que se propaga com mais frequência no ar, na água ou em outro meio, com intensidade e frequência em constante mudança.

Uma pessoa pode perceber ondas sonoras (vibrações do ar) com a ajuda da audição na forma de som, distinguindo entre volume e tom.

Quanto mais intensidade onda sonora, quanto mais alto for o som; quanto mais alta for a frequência da onda, mais alto será o tom do som.


A dependência do volume, bem como do tom do som, da intensidade e frequência da onda sonora

hertz(indicado por Hz ou Hz) - uma unidade de medida da frequência de processos periódicos (por exemplo, oscilações). 1 Hz significa uma execução de tal processo em um segundo: 1 Hz = 1/s.

Se tivermos 10 Hz, isso significa que temos dez execuções desse processo em um segundo.

O ouvido humano pode perceber sons em frequências que variam de 20 vibrações por segundo (20 Hertz, som baixo) a 20.000 vibrações por segundo (20 KHz, som alto).

Além disso, uma pessoa pode perceber o som em uma ampla faixa de intensidades, em que a intensidade máxima é 1.014 vezes maior que a mínima (cem mil bilhões de vezes).

Para medir o volume do som, foi inventada e utilizada uma unidade especial " decibel" (dB)

Uma diminuição ou aumento no volume do som em 10 dB corresponde a uma diminuição ou aumento na intensidade do som em 10 vezes.

Volume do som em decibéis


Para que os sistemas de computador processem áudio, o sinal de áudio contínuo deve ser convertido em formato digital discreto usando amostragem de tempo.

Para fazer isso, uma onda sonora contínua é dividida em pequenas seções temporárias separadas, e para cada seção é definido um determinado valor de intensidade sonora.

Assim, a dependência contínua do volume do som no tempo A(t) é substituída por uma sequência discreta de níveis de intensidade. No gráfico, isso parece substituir uma curva suave por uma sequência de “etapas”.


Amostragem de tempo de áudio


Um microfone conectado à placa de som é usado para gravar áudio analógico e convertê-lo para formato digital.

Quanto mais densas as listras discretas estiverem localizadas no gráfico, melhor será a recriação da qualidade do som original.

A qualidade do som digital resultante depende do número de medições do nível de volume do som por unidade de tempo, ou seja, da frequência de amostragem.

Taxa de amostragem de áudioé o número de medições de volume de som em um segundo.

Quanto mais medições forem feitas em um segundo (quanto maior a frequência de amostragem), mais precisamente a “escada” do sinal de áudio digital segue a curva do sinal analógico.

Cada “etapa” no gráfico recebe um valor específico de nível de volume de som. Os níveis de volume do som podem ser considerados como um conjunto de estados possíveis N(gradações), para codificar uma certa quantidade de informação é necessária EU, que é chamada de profundidade de codificação de áudio.

Profundidade de codificação de áudioé a quantidade de informações necessárias para codificar níveis de volume discretos de áudio digital.

Se a profundidade de codificação for conhecida, o número de níveis de volume do som digital pode ser calculado usando a fórmula geral N=2I.

Por exemplo, deixe a profundidade de codificação de áudio ser de 16 bits; nesse caso, o número de níveis de volume de áudio é igual a:

N = 2 I = 2 16 = 65.536.

Durante o processo de codificação, cada nível de volume de som recebe seu próprio código binário de 16 bits; o nível de som mais baixo corresponderá ao código 0000000000000000 e o mais alto - 111111111111111.

Qualidade de som digitalizado


Portanto, quanto maior a frequência de amostragem e a profundidade de codificação de áudio, maior será a qualidade do áudio digitalizado e melhor será possível aproximar o áudio digitalizado do som original.

A menor qualidade do som digitalizado, correspondente à qualidade da comunicação telefônica, é obtida com taxa de amostragem de 8.000 vezes por segundo, profundidade de amostragem de 8 bits e gravação de uma trilha de áudio (modo mono).

A mais alta qualidade de áudio digitalizado, correspondente à qualidade de CD de áudio, é alcançada com uma taxa de amostragem de 48.000 vezes por segundo, profundidade de amostragem de 16 bits e gravação de duas trilhas de áudio (modo estéreo).

Deve ser lembrado que quanto maior a qualidade do som digital, maior será o volume de informações do arquivo de som.

Você pode estimar facilmente o volume de informações de um arquivo de áudio estéreo digital com duração de som de 1 segundo com qualidade de som média (16 bits, 24.000 medições por segundo). Para fazer isso, a profundidade de codificação deve ser multiplicada pelo número de medições por segundo e multiplicada por 2 canais (som estéreo):

16 bits × 24.000 × 2 = 768.000 bits = 96.000 bytes = 93,75 KB.

Editores de som


Os editores de som permitem não apenas gravar e reproduzir som, mas também editá-lo. Os mais proeminentes podem ser chamados com segurança, como Forja de som Sony, Audição da Adobe, GoldWave e outros.

O som digitalizado é apresentado em editores de som de forma visual clara, de modo que as operações de copiar, mover e excluir partes da trilha de áudio podem ser facilmente realizadas usando um mouse de computador.

Além disso, você pode sobrepor, sobrepor faixas de áudio uns sobre os outros (misturar sons) e aplicar vários efeitos acústicos (eco, reprodução ao contrário, etc.).

Os editores de som permitem alterar a qualidade do som digital e o tamanho do arquivo de som final, alterando a frequência de amostragem e a profundidade de codificação. O áudio digitalizado pode ser salvo descompactado em arquivos de áudio no formato universal WAV (formato Microsoft) ou em formatos compactados OGG e MP3 (compressão com perdas).
Formatos de compactação sem perdas menos comuns, mas dignos de nota, também estão disponíveis.

Ao salvar o som em formatos compactados, são descartadas frequências sonoras de baixa intensidade, inaudíveis e imperceptíveis (“excessivas”) para a percepção humana, coincidindo no tempo com frequências sonoras de alta intensidade. Usar este formato permite compactar arquivos de som dezenas de vezes, mas leva à perda irreversível de informações (os arquivos não podem ser restaurados em sua forma original).

Os principais parâmetros que afetam a qualidade da gravação de áudio digital são:

§ Capacidade de bits de ADC e DAC.

§ Taxas de amostragem ADC e DAC.

§ Jitter ADC e DAC

§ Sobreamostragem

Também importantes são os parâmetros do caminho analógico dos dispositivos digitais de gravação e reprodução de som:

§ Relação sinal-ruído

§ Fator de distorção harmônica

§ Distorção de intermodulação

§ Características de amplitude-frequência desiguais

§ Interpenetração de canais

§ Faixa dinâmica

Tecnologia de gravação de áudio digital

A gravação de áudio digital é atualmente realizada em estúdios de gravação administrados por computadores pessoais e outros equipamentos caros e de alta qualidade. O conceito de “home studio” também é bastante desenvolvido, no qual são utilizados equipamentos de gravação profissionais e semiprofissionais, que permitem criar gravações de alta qualidade em casa.

Placas de som são usadas em computadores que realizam processamento em seus ADCs e DACs - na maioria das vezes em 24 bits e 96 kHz, aumentar ainda mais a profundidade de bits e a frequência de amostragem praticamente não aumenta a qualidade da gravação;

Existe toda uma classe de programas de computador - editores de som que permitem trabalhar com som:

§ gravar fluxo de áudio recebido

§ criar (gerar) som

§ alterar uma gravação existente (adicionar samples, alterar timbre, velocidade do som, cortar partes, etc.)

§ reescrever de um formato para outro

§ converter converter diferentes codecs de áudio

Alguns programas simples, permitem apenas a conversão de formatos e codecs.

Tipos de formatos de áudio digital

Existem diferentes conceitos de formato de som.

O formato para representar dados de áudio em formato digital depende do método de quantização utilizado pelo conversor digital para analógico (DAC). Na engenharia de áudio, dois tipos de quantização são atualmente mais comuns:

§ modulação de código de pulso

§ modulação sigma-delta

Freqüentemente, a profundidade de bits de quantização e a frequência de amostragem são indicadas para vários dispositivos de gravação e reprodução de áudio como o formato de apresentação de áudio digital (24 bits/192 kHz; 16 bits/48 kHz).

O formato do arquivo determina a estrutura e os recursos de apresentação dos dados de áudio quando armazenados em um dispositivo de armazenamento de PC. Para eliminar a redundância nos dados de áudio, codecs de áudio são usados ​​para compactar os dados de áudio. Existem três grupos de formatos de arquivo de som:

§ Formatos de áudio não compactados, como WAV, AIFF

§ formatos de áudio com compressão sem perdas (APE, FLAC)

§ formatos de áudio usando compactação com perdas (mp3, ogg)

Os formatos modulares de arquivos de música se destacam. Criados sinteticamente ou a partir de samples de instrumentos ao vivo pré-gravados, servem principalmente para criar música eletrônica moderna (MOD). Isso também inclui o formato MIDI, que não é uma gravação de som, mas ao mesmo tempo, por meio de um sequenciador, permite gravar e reproduzir música por meio de um conjunto específico de comandos em forma de texto.

Os formatos de mídia de áudio digital são usados ​​tanto para distribuição em massa de gravações de som (CD, SACD) quanto para gravação de som profissional (DAT, minidisco).

Para sistemas de som surround, também é possível distinguir formatos de áudio, que são principalmente acompanhamento de áudio multicanal para filmes. Esses sistemas possuem famílias inteiras de formatos de duas grandes empresas concorrentes, a Digital Theatre Systems Inc. - DTS e Dolby Laboratories Inc. -Dolby Digital.

O formato também é chamado de número de canais em sistemas de som multicanal (5.1; 7.1). Inicialmente, tal sistema foi desenvolvido para cinemas, mas posteriormente foi expandido Codec de software

Codec de áudio no nível do programa

§ G.723.1 – um dos codecs básicos para aplicações de telefonia IP

§ G.729 é um codec proprietário de banda estreita usado para representação de fala digital

§ Internet Low Bitrate Codec (iLBC) - um codec gratuito popular para telefonia IP (em particular, para Skype e Google Talk)

Codec de áudio(Inglês) Codec de áudio; codificador/decodificador de áudio) - programa de computador ou hardware, projetado para codificar ou decodificar dados de áudio.

Codec de software

Codec de áudio no nível do programaé especializado programa de computador, um codec que compacta (compacta) ou descompacta (descompacta) dados de áudio digital de acordo com um formato de arquivo de áudio ou formato de streaming de áudio. A função de um codec de áudio como compressor é fornecer um sinal de áudio com qualidade/precisão especificada e o menor tamanho possível. A compactação reduz a quantidade de espaço necessária para armazenar dados de áudio e também pode reduzir a largura de banda do canal através do qual os dados de áudio são transmitidos. A maioria dos codecs de áudio são implementados como bibliotecas de software que interagem com um ou mais reprodutores de áudio, como QuickTime Player, XMMS, Winamp, VLC media player, MPlayer ou Windows Media Player.

Codecs de áudio de software populares por aplicativo:

§ MPEG-1 Layer III (MP3) - um codec proprietário para gravações de áudio (música, audiolivros, etc.) para equipamento informático e players digitais

§ Ogg Vorbis (OGG) - segundo formato mais popular, amplamente utilizado em jogos de computador e em redes de compartilhamento de arquivos para transmissão de música

§ GSM-FR - primeiro padrão digital codificação de voz usada em telefones GSM

§ Multitaxa adaptativa (AMR) - gravação de voz humana telefones celulares e outros dispositivos móveis

Som– uma onda com amplitude e frequência em constante mudança. Quanto maior a amplitude, mais alto é para uma pessoa; quanto maior a frequência, mais alto é o tom;

Áudio digitalé um sinal de áudio analógico representado por valores numéricos discretos de sua amplitude.

No centro codificação de áudio O uso de computadores é o processo de conversão das vibrações do ar em vibrações de corrente elétrica e posterior amostragem do sinal elétrico analógico.

A codificação e reprodução de informações de áudio são realizadas usando programas especiais(editores de gravação).

A qualidade da reprodução do áudio codificado depende da frequência de amostragem e da sua resolução.

Digitalização de áudio - (ou conversão analógico-digital) - tecnologia para conversão analógica sinal sonoro em formato digital, que é realizado medindo a amplitude do sinal em um determinado intervalo de tempo e registrando os valores obtidos em formato numérico.

A digitalização de áudio envolve dois processos:

    processo de amostragem (amostragem do sinal ao longo do tempo);

    processo de quantização por amplitude.

Processo de amostragem de tempo - o processo de obtenção de valores de sinal que são convertidos em um determinado intervalo de tempo - etapa de amostragem .

O número de medições de magnitude do sinal realizadas em um segundo é chamado taxa de amostragem ou taxa de amostragem, ou taxa de amostragem(do inglês “ampling” - “sampling”).

Quanto menor for o passo de amostragem, maior será a frequência de amostragem e mais precisa será a representação do sinal que receberemos.

Processo quantização de amplitude - o processo de substituição dos valores reais de amplitude do sinal por valores aproximados com alguma precisão.

Quantização– amostragem por nível.

Supõe-se que os erros de quantização resultantes da quantização de 16 bits permanecem quase imperceptíveis para o ouvinte.

Cada um dos 2 N níveis possíveis é chamado nível de quantização, e a distância entre os dois níveis de quantização mais próximos é chamada etapa de quantização.

O número N é chamado profundidade de bits de quantização, e os números obtidos como resultado do arredondamento dos valores de amplitude são conta ou amostras(do inglês “amostra” - “medido”).

Os erros de quantização resultantes da quantização de 16 bits permanecem quase invisíveis para o ouvinte.

Digitalização de áudio – resumo:

Prós: você pode codificar qualquer som (incluindo voz, assobio, farfalhar, ...)

Contras: há perda de informações, grande volume de arquivos

Principais parâmetros que afetam a qualidade do som:

1. Profundidade de bits- dimensão (número de bits de informação codificados/decodificados por ADC e DAC).

2. Frequência de amostragem- frequência de amostragem de um sinal contínuo no tempo durante sua amostragem (ADC), medida em Hertz.

3. Ruído- desvios aleatórios indesejados de fase e/ou frequência do sinal transmitido

Formatos de arquivo de áudio

      WAV(Forma de onda áudio formatar), muitas vezes sem compressão (tamanho!)

      Deputado3 (MPEG-1 Áudio Camada 3 , compressão levando em consideração a percepção humana)

      A.A.C. (Codificação de áudio avançada, 48 canais, compressão)

      WMA (Áudio do Windows Media, streaming de áudio, compressão)

      OGG (Ogg Vorbis, formato aberto, compactação)

Desmascarando mitos populares sobre áudio digital.

01-10-2017T15:27

01-10-2017T15:27

Software para audiófilos

Observação: Para uma melhor compreensão do texto abaixo, recomendo fortemente que você se familiarize com os fundamentos do áudio digital.

Além disso, muitos dos pontos levantados abaixo são abordados na minha publicação “Mais uma vez sobre a triste verdade: de onde realmente vem o bom som?” .

Quanto maior a taxa de bits, melhor será a qualidade da trilha.

Nem sempre é esse o caso. Primeiro, deixe-me lembrá-lo o que é bitray T(taxa de bits, não bitraid). Na verdade, esta é a taxa de dados em quilobits por segundo durante a reprodução. Ou seja, se pegarmos o tamanho de uma trilha em kilobits e dividirmos por sua duração em segundos, obteremos sua taxa de bits - a chamada. taxa de bits baseada em arquivo (FBR), geralmente não é muito diferente da taxa de bits do fluxo de áudio (o motivo das diferenças é a presença de metadados na faixa - tags, imagens incorporadas, etc.).

Agora vamos dar um exemplo: a taxa de bits do áudio PCM não compactado gravado em um CD de áudio normal é calculada da seguinte forma: 2 (canais) × 16 (bits por amostra) × 44100 (amostras por segundo) = 1411200 (bps) = 1411,2 kbps. Agora vamos pegar e compactar a faixa com qualquer codec sem perdas (“sem perdas” - “sem perdas”, ou seja, aquele que não leva à perda de nenhuma informação), por exemplo, o codec FLAC. Como resultado, obteremos uma taxa de bits inferior à original, mas a qualidade permanecerá inalterada - aqui está sua primeira refutação.

Há mais uma coisa que vale a pena acrescentar aqui. A taxa de bits de saída com compactação sem perdas pode ser muito diferente (mas, via de regra, é menor que a do áudio não compactado) - isso depende da complexidade do sinal compactado ou, mais precisamente, da redundância de dados. Assim, sinais mais simples serão melhor compactados (ou seja, temos um tamanho de arquivo menor para a mesma duração => menor taxa de bits), e sinais mais complexos serão compactados pior. É por isso que a música clássica sem perdas tem uma taxa de bits mais baixa do que, digamos, o rock. Mas deve ser enfatizado que a taxa de bits aqui não é de forma alguma um indicador da qualidade do material de áudio.

Agora vamos falar sobre compactação com perdas (com perdas). Em primeiro lugar, você precisa entender que existem muitos codificadores e formatos diferentes e, mesmo dentro do mesmo formato, a qualidade de codificação de codificadores diferentes pode ser diferente (por exemplo, QuickTime AAC codifica muito melhor do que o FAAC desatualizado), sem mencionar a superioridade dos formatos modernos (OGG Vorbis, AAC, Opus) sobre o MP3. Simplificando, de duas faixas idênticas codificadas por codificadores diferentes com a mesma taxa de bits, uma soará melhor e outra soará pior.

Além disso, existe algo como envelope para cima. Ou seja, você pode pegar uma faixa no formato MP3 com taxa de bits de 96 kbps e convertê-la para MP3 de 320 kbps. Não só a qualidade não melhorará (afinal, os dados perdidos durante a codificação anterior de 96 kbit/s não podem ser retornados), como também piorará. Vale ressaltar aqui que em cada estágio da codificação com perdas (com qualquer taxa de bits e qualquer codificador), uma certa quantidade de distorção é introduzida no áudio.

E ainda mais. Há mais uma nuance. Se, digamos, a taxa de bits de um fluxo de áudio for 320 kbps, isso não significa que todos os 320 kbps foram gastos na codificação naquele exato segundo. Isso é típico para codificação com taxa de bits constante e para aqueles casos em que uma pessoa, na esperança de obter qualidade máxima, força a taxa de bits constante a ser muito alta (por exemplo, definindo CBR de 512 kbps para Nero AAC). Como é sabido, o número de bits atribuídos a um determinado quadro é regulado por um modelo psicoacústico. Mas no caso em que a quantidade alocada é muito menor que a taxa de bits definida, mesmo o reservatório de bits não salva (leia sobre os termos no artigo “O que são CBR, ABR, VBR?”) - como resultado, ficamos inúteis “zero bits” que simplesmente “terminam” » tamanho do quadro para o tamanho necessário (ou seja, aumenta o tamanho do fluxo para o especificado). A propósito, isso é fácil de verificar - comprima o arquivo resultante com um arquivador (de preferência 7z) e observe a taxa de compactação - quanto maior for, mais zero bits (já que levam à redundância), mais espaço será desperdiçado.

Codecs com perdas (MP3 e outros) são capazes de lidar com a música eletrônica moderna, mas não são capazes de codificação de alta qualidade de música clássica (acadêmica), ao vivo e instrumental

A “ironia do destino” aqui é que na verdade tudo é exatamente o oposto. Como se sabe, a música acadêmica na grande maioria dos casos segue princípios melódicos e harmônicos, bem como de composição instrumental. Do ponto de vista matemático, isso resulta em uma composição musical harmônica relativamente simples. Assim, a predominância de consonâncias produz um número menor de harmônicos secundários: por exemplo, para uma quinta (intervalo em que as frequências fundamentais de dois sons diferem uma vez e meia), cada segundo harmônico será comum aos dois sons , para um quarto, onde as frequências diferem em um terço - a cada terço, e etc. Além disso, a presença de relações de frequência fixas, devido ao uso de temperamento igual, também simplifica a composição espectral da música clássica. A composição instrumental ao vivo dos clássicos determina a ausência de ruídos característicos da música eletrônica, distorções, saltos bruscos de amplitude e ausência de excesso de componentes de alta frequência.

Os fatores listados acima levam ao fato de que a música clássica é muito mais fácil de comprimir, antes de tudo, de forma puramente matemática. Se você se lembra, a compressão matemática funciona eliminando a redundância (descrevendo informações semelhantes usando menos bits) e também fazendo previsões (também conhecidas como. preditores prever o comportamento do sinal e, então, apenas o desvio do sinal real em relação ao previsto é codificado - quanto mais precisamente eles corresponderem, menos bits serão necessários para a codificação). EM nesse caso A composição e harmonia espectral relativamente simples determinam alta redundância, cuja eliminação proporciona um grau significativo de compressão, e o pequeno número de rajadas e componentes de ruído (que são sinais aleatórios e imprevisíveis) determinam uma boa previsibilidade matemática da grande maioria das informações. E nem estou falando do volume médio relativamente baixo das faixas clássicas e dos frequentes intervalos de silêncio, para os quais praticamente nenhuma informação é necessária para codificar. Como resultado, podemos compactar sem perdas, por exemplo, algumas músicas instrumentais solo para taxas de bits abaixo de 320 kbps (os codificadores TAK e OFR são perfeitamente capazes disso).

Então, em primeiro lugar, o fato é que a compressão matemática subjacente à codificação sem perdas também é um dos estágios da codificação com perdas (leia Entendendo a codificação de MP3). E em segundo lugar, como o lossy utiliza a transformada de Fourier (decomposição do sinal em harmônicos), a simplicidade da composição espectral torna ainda mais fácil o trabalho do codificador. Como resultado, comparando as amostras de música clássica originais e codificadas num teste cego, ficamos surpresos ao descobrir que não conseguimos encontrar quaisquer diferenças, mesmo com uma taxa de bits relativamente baixa. E o engraçado é que quando começamos a diminuir completamente a taxa de bits da codificação, a primeira coisa que revela diferenças é o ruído de fundo na gravação.

Quanto à música eletrônica, os codificadores têm muita dificuldade com ela: os componentes de ruído têm redundância mínima e, junto com saltos bruscos (algum tipo de pulso dente de serra), são sinais extremamente imprevisíveis (para codificadores que são “adaptados” a sons naturais que se comportam completamente diferente), a transformada de Fourier direta e inversa com a rejeição de harmônicos individuais pelo modelo psicoacústico produz inevitavelmente efeitos pré e pós-eco, cuja audibilidade nem sempre é fácil de ser avaliada pelo codificador... Adicione a isso o alto nível de componentes HF - e você obtém grande número samples matadores, que mesmo os codificadores mais avançados não conseguem suportar em taxas de bits médias-baixas, por incrível que pareça, especialmente na música eletrônica.

Também divertidas são as opiniões de “ouvintes experientes” e músicos que, com total falta de compreensão dos princípios da codificação com perdas, começam a afirmar que ouvem como os instrumentos da música após a codificação começam a desafinar, as frequências flutuam , etc. Isso ainda pode ser verdade para toca-fitas antediluvianos com detonação, mas no áudio digital tudo é preciso: o componente de frequência permanece ou é descartado, simplesmente não há necessidade de mudar a tonalidade. Além disso: a presença de ouvido musical de uma pessoa não significa de forma alguma que ela tenha uma boa audição de frequência (por exemplo, a capacidade de perceber frequências >16 kHz, que desaparece com a idade) e não torna de forma alguma mais fácil para ela ouvir procure artefatos de codificação com perdas, uma vez que distorção Eles têm um caráter muito específico e exigem a experiência de comparação cega de áudio com perdas - você precisa saber o que e onde procurar.

O DVD-Áudio soa melhor que o CD de áudio (24 bits versus 16, 96 kHz versus 44,1, etc.)

Infelizmente, as pessoas normalmente olham apenas para números e muito raramente pensam no impacto de um determinado parâmetro na qualidade objetiva.

Vamos primeiro considerar a profundidade de bits. Este parâmetro é responsável por nada mais do que a faixa dinâmica, ou seja, a diferença entre os sons mais baixos e os mais altos (em dB). No áudio digital, o nível máximo é 0 dBFS (FS - escala completa), e o mínimo é limitado pelo nível de ruído, ou seja, de fato, a faixa dinâmica em valor absoluto é igual ao nível de ruído. Para áudio de 16 bits, a faixa dinâmica é calculada como 20 × log 10 2 16, o que equivale a 96,33 vB. Ao mesmo tempo, a faixa dinâmica de uma orquestra sinfônica é de até 75 dB (principalmente cerca de 40-50 dB).

Agora vamos imaginar condições reais. O nível de ruído na sala é de cerca de 40 dB (não se esqueça que dB é um valor relativo. Neste caso, o limite de audibilidade é considerado 0 dB), o volume máximo da música chega a 110 dB (para evitar desconforto) - nós obter uma diferença de 70 dB. Assim, verifica-se que uma faixa dinâmica superior a 70 dB, neste caso, é simplesmente inútil. Ou seja, com um intervalo acima ou sons altos atingirá um limiar de dor, ou sons baixos será absorvido pelo ruído ambiente. É muito difícil atingir um nível de ruído ambiente inferior a 15 dB (já que o volume da respiração humana e outros ruídos causados ​​​​pela fisiologia humana está neste nível), como resultado, obtém-se uma faixa de 95 dB para ouvir música ser completamente suficiente.

Agora sobre a frequência de amostragem (frequência de amostragem, taxa de amostragem). Este parâmetro controla a frequência de amostragem de tempo e afeta diretamente a frequência máxima do sinal que pode ser descrita por uma determinada representação de áudio. De acordo com o teorema de Kotelnikov, é igual a metade da frequência de amostragem. Ou seja, para uma frequência de amostragem normal de 44.100 Hz, a frequência máxima dos componentes do sinal é 22.050 Hz. A frequência máxima. que é percebido pelo ouvido humano está ligeiramente acima de 20.000 Hz (e depois no nascimento; à medida que envelhecemos, o limiar cai para 16.000 Hz).

Melhor este tópicoé abordado no artigo 24/192 downloads - por que eles não fazem sentido.

Diferentes reprodutores de software soam de maneira diferente (por exemplo, foobar2000 é melhor que Winamp, etc.)

Para entender por que esse não é o caso, você precisa entender o que é um reprodutor de software. Essencialmente, este é um decodificador, manipuladores (opcional), um plugin de saída (para uma das interfaces: ASIO, DirectSound, WASAPI. etc.) e, claro, GUI ( GUI usuário). Como o decodificador em 99,9% dos casos funciona de acordo com um algoritmo padrão, e o plug-in de saída é apenas parte do programa que transmite o stream para a placa de som através de uma das interfaces, o único motivo para as diferenças pode ser o manipuladores. Mas o fato é que os manipuladores geralmente estão desabilitados por padrão (ou deveriam ser desabilitados, já que o principal para bom jogador- ser capaz de transmitir o som na sua forma “imaculada”). Como resultado, o único assunto de comparação aqui pode ser possibilidades processamento e saída, que, aliás, muitas vezes não são necessários. Mas mesmo que haja tal necessidade, então esta é uma comparação de processadores, e não de jogadores.

Diferentes versões de driver soam diferentes

Esta afirmação é baseada no desconhecimento banal dos princípios de funcionamento de uma placa de som. O motorista é programas, necessário para a interação eficaz do dispositivo com sistema operacional, que geralmente também fornece uma interface gráfica de usuário para permitir que você gerencie o dispositivo, suas configurações, etc. O driver da placa de som garante que a placa de som seja reconhecida como uma placa de som Dispositivos Windows, informa o SO sobre os formatos suportados pelo cartão, garante a transmissão de um fluxo PCM não compactado (na maioria dos casos) para o cartão e também dá acesso às configurações. Além disso, se houver processamento de software (usando ferramentas de CPU), o driver poderá conter vários DSPs (processadores). Portanto, em primeiro lugar, com efeitos e processamento desabilitados, se o driver não fornecer transmissão PCM precisa para a placa, isso é considerado um erro grosseiro, um bug crítico. E isso acontece extremamente raro. Por outro lado, as diferenças entre os drivers podem estar na atualização dos algoritmos de processamento (reamostradores, efeitos), embora isso também não aconteça com frequência. Além disso, para alcançar mais alta qualidade efeitos e qualquer processamento de driver ainda devem ser excluídos.

Assim, as atualizações de drivers têm como foco principal melhorar a estabilidade e eliminar erros de processamento. Nem um nem outro no nosso caso afetam a qualidade da reprodução, portanto, em 999 casos em 1000, o driver não tem efeito no som.

CDs de áudio licenciados soam melhor que suas cópias

Se nenhum erro (fatal) de leitura/gravação ocorreu durante a cópia e unidade óptica dispositivo no qual o disco copiado será reproduzido, não há problemas com sua leitura, então tal afirmação é errônea e facilmente refutada.

O modo de codificação estéreo oferece melhor qualidade do que Joint Stereo

Este equívoco diz respeito principalmente ao LAME MP3, uma vez que todos os codificadores modernos (AAC, Vorbis, Musepack) usam apenas Modo Joint Stereo (e isso já diz alguma coisa)

Para começar, vale a pena mencionar que o modo Joint Stereo é usado com sucesso com compressão sem perdas. Sua essência reside no fato de que antes da codificação o sinal é decomposto na soma dos canais direito e esquerdo (Mid) e sua diferença (Side), e então ocorre a codificação separada desses sinais. No limite (para as mesmas informações nos canais direito e esquerdo), obtém-se o dobro da economia de dados. E como na maioria das músicas as informações nos canais direito e esquerdo são bastante semelhantes, este método acaba sendo muito eficaz e permite aumentar significativamente a taxa de compressão.

Em perdas o princípio é o mesmo. Mas aqui, no modo de taxa de bits constante, a qualidade dos fragmentos com informações semelhantes em dois canais aumentará (no limite, o dobro), e para o modo VBR nesses locais a taxa de bits simplesmente diminuirá (não se esqueça que a tarefa principal do modo VBR é manter de forma estável a qualidade de codificação especificada, usando a taxa de bits mais baixa possível). Como durante a codificação com perdas, a prioridade (na distribuição de bits) é dada à soma dos canais, a fim de evitar a deterioração do panorama estéreo, a comutação dinâmica entre Joint Stereo (Mid/Side) e regular (Esquerda/Direita) estéreo baseado em quadros modos são usados. Aliás, o motivo desse equívoco foi a imperfeição do algoritmo de comutação nas versões mais antigas do LAME, bem como a presença do modo Forced Joint, no qual não há comutação automática. EM versões mais recentes O modo LAME Joint está habilitado por padrão e não é recomendado alterá-lo.

Quanto mais amplo o espectro, melhor será a qualidade da gravação (sobre espectrogramas, auCDtect e faixa de frequência)

Hoje em dia, nos fóruns, infelizmente, é muito comum medir a qualidade de uma trilha “com uma régua por meio de um espectrograma”. Obviamente, devido à simplicidade deste método. Mas, como mostra a prática, na realidade tudo é muito mais complicado.

E aqui está a questão. O espectrograma demonstra visualmente a distribuição da potência do sinal pelas frequências, mas não pode fornecer uma imagem completa do som da gravação, da presença de distorções e artefatos de compressão nela. Ou seja, essencialmente tudo o que pode ser determinado a partir do espectrograma é faixa de frequência(e parcialmente - densidade do espectro na região HF). Ou seja, na melhor das hipóteses, ao analisar o espectrograma, um upconvert pode ser identificado. Comparar espectrogramas de trilhas obtidos por codificação com diferentes codificadores com o original é um completo absurdo. Sim, é possível identificar diferenças no espectro, mas determinar se (e em que medida) elas serão percebidas pelo ouvido humano é quase impossível. Não devemos esquecer que a tarefa da codificação com perdas é garantir um resultado indistinguível ouvido humano do original (não a olho nu).

O mesmo se aplica à avaliação da qualidade da codificação analisando as faixas de saída com o programa auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - estes são apenas shells para o programa de console único auCDtect). O algoritmo auCDtect também analisa a faixa de frequência e só permite determinar (com um certo grau de probabilidade) se a compressão MPEG foi aplicada em algum dos estágios de codificação. O algoritmo é feito sob medida para MP3, por isso é fácil “enganá-lo” com a ajuda dos codecs Vorbis, AAC e Musepack, portanto, mesmo que o programa escreva “100% CDDA”, isso não significa que o áudio codificado seja 100% idêntico ao original.

E voltando diretamente aos espectros. Há também um desejo popular entre alguns “entusiastas” de desabilitar o filtro passa-baixa no codificador LAME a todo custo. Há uma clara falta de compreensão dos princípios da codificação e da psicoacústica. Primeiro, o codificador corta altas frequências com apenas um propósito - salvar dados e usá-los para codificar a faixa de frequência mais audível. A faixa de frequência estendida pode ter um impacto fatal na qualidade geral do som e levar a artefatos de codificação audíveis. Além disso, desligar o corte em 20 kHz geralmente é completamente injustificado, uma vez que uma pessoa simplesmente não consegue ouvir frequências mais altas.

Existe uma certa predefinição de equalizador “mágica” que pode melhorar significativamente o som

Isto não é inteiramente verdade, em primeiro lugar, porque cada configuração individual (fones de ouvido, acústica, placa de som) tem seus próprios parâmetros (em particular, sua característica amplitude-frequência). E, portanto, cada configuração deve ter sua abordagem própria e única. Simplificando, essa predefinição de equalizador existe, mas difere para diferentes configurações. A sua essência reside no ajuste da resposta de frequência do caminho, nomeadamente, no “nivelamento” de quedas e surtos indesejados.

Além disso, entre as pessoas que estão longe de trabalhar diretamente com som, é muito popular definir um equalizador gráfico com um “tick”, o que na verdade representa um aumento no nível dos componentes de baixa e alta frequência, mas ao mesmo tempo leva ao abafamento de vocais e instrumentos, cujo espectro sonoro está na região de frequência média.

Antes de converter música para outro formato, você deve descompactá-la para WAV

Deixe-me observar imediatamente que WAV significa dados PCM (modulação de código de pulso) no contêiner WAVE (arquivo com extensão *.wav). Esses dados nada mais são do que uma sequência de bits (zeros e uns) em grupos de 16, 24 ou 32 (dependendo da profundidade de bits), cada um dos quais representa o código binário para a amplitude da amostra correspondente (por exemplo, para 16 bits em notação decimal são valores de -32768 a +32768).

Então, o fato é que qualquer processador de som – seja ele um filtro ou um codificador – normalmente funciona apenas com esses valores, ou seja apenas com dados não compactados. Isso significa que para converter áudio de, digamos, FLAC para APE, você simplesmente necessário Primeiro decodifique FLAC para PCM e depois codifique PCM para APE. É como recompactar arquivos ZIP para RAR, você deve primeiro descompactar o ZIP.

No entanto, se você usar um conversor ou apenas um codificador de console avançado, a conversão intermediária para PCM ocorrerá rapidamente, às vezes sem sequer gravar em um arquivo WAV temporário. Isso é o que engana as pessoas: parece que os formatos são convertidos diretamente de um para outro, mas na verdade tal programa deve ter um decodificador de formato de entrada que realize a conversão intermediária para PCM.

Assim, converter manualmente para WAV não lhe trará absolutamente nada além de perda de tempo.

O que determinará a qualidade do som digitalizado?

    Para a qualidade do som digital, duas coisas são essenciais: a qualidade da trilha sonora original e a qualidade do conversor analógico-digital.

    No que diz respeito à qualidade da trilha sonora original, tudo é aproximadamente claro. Se for curvo (com distorções) ou barulhento, nenhuma digitalização irá melhorá-lo. Pois bem, isto é, é possível, através de vários processamentos, inclusive digitais, isolar um sinal útil, que é utilizado para isolar a fala contra o fundo de ruído externo ou para isolar um sinal regular contra o fundo de ruído aleatório (todo mundo tem assisti filmes sobre spins, certo?), mas se estamos falando de um fonograma musical, ou seja, um fonograma de amplo espectro, então todo tipo de truque não vai adiantar.

    Portanto, assumiremos que o fonograma é de alta qualidade.

    Então tudo o que resta é o ADC.

    O principal indicador aqui é a profundidade de bits de codificação. É claro que quanto maior, melhor, mas por outro lado, mais complexo e caro é esse conversor. Nos primórdios da tecnologia digital (que não foi há muito tempo atrás...), um disco final de 16 bits era reconhecido como ideal em termos de relação preço/qualidade. Com uma profundidade de bits mais baixa, a faixa dinâmica de uma cópia digital de um fonograma é prejudicada - sons de baixo nível (pianíssimo) representam apenas uma pequena parte de todos os bits, o que significa que a natureza gradual da mudança do sinal se torna perceptível. E a filtragem passa-baixa não ajudará muito aqui (as menções ao teorema de Kotelnikov são bem-vindas, mas não devemos esquecer que ela pressupõe tacitamente perfeito conversão analógico-digital, ou seja, com uma profundidade de bits infinitamente grande). Como qualquer processamento, mesmo em formato digital, só pode reduzir a profundidade efetiva de bits, a digitalização em estúdios foi e continua a ser realizada até hoje com um número maior de bits.

    Hoje em dia não é mais incomum que fonogramas digitais sejam preparados com profundidade de bits de 24 bits (super-Áudio CD, Áudio-DVD). Com tanta profundidade, será possível transmitir plenamente a gama dinâmica de qualquer obra musical, até mesmo o Bolero de Ravel, que começa com uma parte quase inaudível da caixa e termina fortíssimo com toda a orquestra.

    Aqui você vai. Além da profundidade de bits, outros parâmetros ADC também são importantes, principalmente não linearidade e ruído. Principalmente ruídos. Porque eles limitam a capacidade efetiva de bits do conversor. Qual é o sentido desses 24 bits se os últimos 8 deles são barulhentos e, portanto, não têm nenhum significado? informações úteis... O nível de ruído dos ADCs modernos de 24 bits pode atingir -115 dB em taxas de amostragem acima de 100 kHz, o que já é bastante decente, e a não linearidade diferencial é medida em dez milésimos de por cento. Ou seja, tais soluções excedem facilmente as capacidades do ouvido humano.

  • Dependerá de três parâmetros principais:

    1. Taxa de amostragem. Limita a largura de banda das frequências transmitidas: a frequência máxima do sinal transmitido está abaixo da metade da frequência de amostragem. Na telefonia, a frequência de amostragem de 8 kHz é mais frequentemente usada, o que fornece uma banda teórica ligeiramente mais estreita que 4 kHz (na prática, é usada uma banda de 300-3000 Hz). E o padrão CD utiliza uma frequência de 44,1 kHz, o que possibilita a transmissão completa do espectro de 20 Hz - 20 kHz. Aumentar a taxa de amostragem acima desses valores não faz sentido em termos da faixa de frequências transmitidas, mas reduz o nível de distorção de intermodulação. No padrão DVD Audio, a frequência máxima de amostragem é de 192 kHz; algumas boas placas de áudio para computadores também suportam essa frequência de amostragem (a largura de banda das frequências de reprodução e gravação difere de modelo para modelo). Outros valores padrão são 96, 48, 32, 22,05, 11,025 kHz.
    2. Profundidade de bits de codificação. A faixa dinâmica depende disso - com codificação linear, a diferença entre o balanço total e o passo mínimo é de 256 vezes para 8 bits e 65.536 vezes para 16 bits, que é 48 e 96 dB, respectivamente. 48 dB é francamente baixo, este é o nível da faixa dinâmica de um cassete compacto e, além disso, além da faixa dinâmica estreita, surgem distorções desagradáveis, especialmente claramente audíveis em locais silenciosos - uma consequência da transformação de um sinal suave em um escalonado. Em 16 bits, a qualidade do som já é bastante boa (essa é a profundidade de bits que um CD usa), mas não é ideal em muitos casos reais - muitas obras clássicas, assim como músicas pesadas, exigem um DD maior. Sistemas de alta qualidade usam codificação de 24 bits, embora o número real de bits significativos não exceda 18-20. Não faz sentido aumentar ainda mais a profundidade de bits.
    3. Método de codificação. Existem dois lados nisso. O primeiro é a própria escala de amostragem. Geralmente é linear, mas também pode ser logarítmico. Isso proporciona um aumento na faixa dinâmica com a mesma profundidade de bits, mas o nível de distorção é maior do que com a mesma faixa dinâmica com escala linear e profundidade de bits maior. A segunda é o uso de vários algoritmos de compressão com perdas. Em conexão com este último, surge o conceito de taxa de bits. O último é o número de bits necessários para codificar um segundo de áudio. Naturalmente, a taxa de bits depende da frequência de amostragem e da profundidade de bits, mas também da taxa de compressão. A compactação pode ser com ou sem perdas. A compactação sem perdas é essencialmente um arquivamento comum e não afeta o som. E com perdas, é por isso que são perdas. O codificador analisa as informações de áudio e descarta os dados, guiado por considerações psicoacústicas: a perda do que será menos audível. Ou seja, um som fraco contra o fundo de um som forte, sons fracos de alta frequência contra o fundo de sons fortes de média frequência e assim por diante. Em médio e altas frequências informações de fase podem ser descartadas. Como resultado, quando uma gravação é comprimida com qualidade de CD 4,5 vezes (taxa de bits 320 kbps, mp3/Lame), a deterioração audível da gravação é tão insignificante que sem um bom equipamento é muito difícil discernir a diferença. E com uma taxa de bits de 128, a deterioração na qualidade do som já é óbvia e muitas gravações soam simplesmente desagradáveis. Mas com alto-falantes de plástico ou alto-falantes embutidos no laptop, você não ouvirá essa diferença.

© 2024 ermake.ru - Sobre reparo de PC - Portal de informações