Ce determină calitatea sunetului digital? Ce parametri determină calitatea sunetului digital?

Acasă / Recuperarea datelor

Sunet este o undă care se propagă cel mai adesea în aer, apă sau alt mediu cu intensitate și frecvență în continuă schimbare.

O persoană poate percepe unde sonore (vibrații ale aerului) cu ajutorul auzului sub formă de sunet, distingând între volum și ton.

Cu atât mai mult intensitate unda sonoră, cu cât sunetul este mai puternic;

Dependența volumului, precum și înălțimea sunetului, de intensitatea și frecvența undei sonore

Hertz(indicată prin Hz sau Hz) - o unitate de măsură a frecvenței proceselor periodice (de exemplu, oscilații). 1 Hz înseamnă o execuție a unui astfel de proces într-o secundă: 1 Hz = 1/s.

Dacă avem 10 Hz, atunci aceasta înseamnă că avem zece execuții ale unui astfel de proces într-o secundă.

Urechea umană poate percepe sunetul la frecvențe care variază de la 20 de vibrații pe secundă (20 Herți, sunet scăzut) la 20.000 de vibrații pe secundă (20 KHz, sunet înalt).

În plus, o persoană poate percepe sunetul într-o gamă largă de intensități, în care intensitatea maximă este de 1014 ori mai mare decât cea minimă (de o sută de mii de miliarde de ori).

Pentru a măsura volumul sunetului, a fost inventată și folosită o unitate specială " decibel" (dB)

O scădere sau creștere a volumului sunetului cu 10 dB corespunde unei scăderi sau creșteri a intensității sunetului de 10 ori.

Volumul sunetului în decibeli

Pentru ca sistemele informatice să proceseze sunetul, semnalul audio continuu trebuie convertit într-o formă digitală, discretă, folosind eșantionarea în timp.

Pentru a face acest lucru, o undă sonoră continuă este împărțită în secțiuni temporare mici separate și pentru fiecare astfel de secțiune este setată o anumită valoare a intensității sunetului.

Astfel, dependența continuă a volumului sunetului de timpul A(t) este înlocuită cu o secvență discretă de niveluri de zgomot. Pe grafic, aceasta arată ca și cum ar înlocui o curbă netedă cu o secvență de „pași”.

Eșantionarea în timp a sunetului

Un microfon conectat la placa de sunet este folosit pentru a înregistra sunetul analogic și pentru a-l converti în formă digitală.

Cu cât dungile discrete sunt mai dense pe grafic, cu atât o calitate mai bună veți putea în cele din urmă să recreați sunetul original.

Calitatea sunetului digital rezultat depinde de numărul de măsurători ale nivelului volumului sunetului pe unitatea de timp, adică de frecvența de eșantionare.

Rata de eșantionare audio este numărul de măsurători ale volumului sunetului într-o secundă.

Cu cât se efectuează mai multe măsurători într-o secundă (cu cât frecvența de eșantionare este mai mare), cu atât „scara” semnalului audio digital urmează cu mai multă acuratețe curba semnalului analogic.

Fiecărui „pas” din grafic i se atribuie o valoare specifică a nivelului de volum al sunetului. Nivelurile volumului sunetului pot fi gândite ca un set de stări posibile N(gradații), pentru codificare este necesară o anumită cantitate de informații eu, care se numește adâncimea codării audio.

Adâncimea codării audio este cantitatea de informații necesară pentru a codifica niveluri discrete de volum ale sunetului digital.

Dacă se cunoaște adâncimea de codificare, atunci numărul de niveluri de volum al sunetului digital poate fi calculat folosind formula generală N=2I.

De exemplu, să fie adâncimea de codificare audio de 16 biți, caz în care numărul de niveluri de volum audio este egal cu:

N = 2 I = 2 16 = 65.536.

În timpul procesului de codificare, fiecărui nivel de volum al sunetului i se atribuie propriul cod binar de 16 biți;

Calitatea sunetului digitalizat

Deci, cu cât frecvența de eșantionare și adâncimea codificării audio sunt mai mari, cu atât calitatea sunetului digitalizat este mai mare și cu atât sunetul digitalizat poate fi adus mai aproape de sunetul original.

Cea mai scăzută calitate a sunetului digitalizat, corespunzătoare calității comunicației telefonice, se obține cu o rată de eșantionare de 8000 de ori pe secundă, o adâncime de eșantionare de 8 biți și înregistrarea unei piese audio (mod mono).

Audio digitizat de cea mai înaltă calitate, corespunzătoare calității CD-ului audio, se realizează cu o rată de eșantionare de 48.000 de ori pe secundă, o adâncime de eșantionare de 16 biți și înregistrarea a două piese audio (mod stereo).

Trebuie amintit că cu cât este mai mare calitatea sunetului digital, cu atât este mai mare volumul de informații al fișierului de sunet.

Puteți estima cu ușurință volumul de informații al unui fișier audio digital stereo cu o durată a sunetului de 1 secundă cu o calitate medie a sunetului (16 biți, 24.000 de măsurători pe secundă). Pentru a face acest lucru, adâncimea de codificare trebuie înmulțită cu numărul de măsurători pe secundă și înmulțită cu 2 canale (sunet stereo):

16 biți × 24.000 × 2 = 768.000 biți = 96.000 de biți = 93,75 KB.

Editori de sunet

Editorii de sunet vă permit nu numai să înregistrați și să redați sunetul, ci și să îl editați. Cel mai proeminent poate fi numit în siguranță, cum ar fi Sony Sound Forge, Adobe Audition, GoldWave si altele.

Sunetul digitizat este prezentat în editorii de sunet într-o formă vizuală clară, astfel încât copierea, mutarea și ștergerea unor părți ale pistei audio se pot face cu ușurință folosind un mouse de computer.

În plus, puteți suprapune, suprapune piste audio unul pe celălalt (amestecați sunete) și aplicați diverse efecte acustice (eco, redare inversă etc.).

Editorii de sunet vă permit să modificați calitatea sunetului digital și dimensiunea fișierului de sunet final prin modificarea frecvenței de eșantionare și a adâncimii de codificare. Audio digitizat poate fi salvat necomprimat în fișiere audio în format universal WAV (format Microsoft) sau în formate OGG și MP3 comprimate (compresie cu pierderi).
Sunt disponibile și formate mai puțin obișnuite, dar demne de remarcat, cu compresie fără pierderi.

La salvarea sunetului în formate comprimate, frecvențele de sunet de intensitate scăzută care sunt inaudibile și imperceptibile („excesive”) pentru percepția umană, care coincid în timp cu frecvențele de sunet de intensitate mare, sunt eliminate. Utilizarea acestui format vă permite să comprimați fișiere de sunet de zeci de ori, dar duce la pierderea ireversibilă a informațiilor (fișierele nu pot fi restaurate în forma lor originală, originală).

Principalii parametri care afectează calitatea înregistrării audio digitale sunt:

§ Capacitatea de biți a ADC și DAC.

§ Rate de eșantionare ADC și DAC.

§ Jitter ADC și DAC

§ Supraeșantionarea

De asemenea, sunt importanți parametrii căii analogice a dispozitivelor digitale de înregistrare și reproducere a sunetului:

§ Raportul semnal-zgomot

§ Factor de distorsiune armonică

§ Distorsiunea intermodulatiei

§ Caracteristici neuniforme amplitudine-frecvență

§ Interpenetrarea canalelor

§ Interval dinamic

Tehnologie de înregistrare audio digitală

Înregistrarea audio digitală se realizează în prezent în studiourile de înregistrare administrate de calculatoare personaleși alte echipamente scumpe și de înaltă calitate. Conceptul de „studio acasă” este, de asemenea, destul de dezvoltat, în care se utilizează echipamente de înregistrare profesionale și semi-profesionale, care vă permit să creați înregistrări de înaltă calitate acasă.

Plăcile de sunet sunt utilizate ca parte a computerelor care efectuează procesare în ADC-urile și DAC-urile lor - cel mai adesea în 24 de biți și 96 kHz, creșterea în continuare a adâncimii de biți și a frecvenței de eșantionare practic nu crește calitatea înregistrării.

Există o întreagă clasă de programe de calculator - editori de sunet care vă permit să lucrați cu sunet:

§ înregistrați fluxul audio primit

§ crea (generează) sunet

§ modificați o înregistrare existentă (adăugați mostre, schimbați timbrul, viteza sunetului, tăiați părți etc.)

§ rescrie dintr-un format în altul

§ converti convertește diferite codecuri audio

Unele programe simple, permite doar conversia formatelor și codecurilor.

Tipuri de formate audio digitale

Există diferite concepte de format de sunet.

Formatul de reprezentare a datelor audio în formă digitală depinde de metoda de cuantizare utilizată de convertorul digital-analogic (DAC). În ingineria audio, două tipuri de cuantizare sunt în prezent cele mai comune:

§ modularea codului de impuls

§ modulatie sigma-delta

Adesea, adâncimea de biți de cuantizare și frecvența de eșantionare sunt indicate pentru diferite dispozitive de înregistrare și redare audio ca format de prezentare audio digitală (24 biți/192 kHz; 16 biți/48 kHz).

Formatul fișierului determină structura și caracteristicile de prezentare ale datelor audio atunci când sunt stocate pe un dispozitiv de stocare PC. Pentru a elimina redundanța datelor audio, codecurile audio sunt folosite pentru a comprima datele audio. Există trei grupuri de formate de fișiere de sunet:

§ Formate audio necomprimate, cum ar fi WAV, AIFF

§ formate audio cu compresie fără pierderi (APE, FLAC)

§ formate audio care utilizează compresie cu pierderi (mp3, ogg)

Formatele modulare de fișiere muzicale ies în evidență. Create sintetic sau din mostre de instrumente live preînregistrate, ele servesc în principal pentru a crea muzică electronică modernă (MOD). Acesta include, de asemenea, formatul MIDI, care nu este o înregistrare de sunet, dar, în același timp, folosind un secvențior, vă permite să înregistrați și să redați muzică folosind un set specific de comenzi sub formă de text.

Formatele media audio digitale sunt utilizate atât pentru distribuția în masă a înregistrărilor audio (CD, SACD), cât și în înregistrarea profesională a sunetului (DAT, minidisc).

Pentru sistemele de sunet surround, este, de asemenea, posibil să distingem formatele audio, care sunt în principal acompaniament audio multicanal pentru filme. Astfel de sisteme au familii întregi de formate de la două mari companii concurente, Digital Theatre Systems Inc. - DTS și Dolby Laboratories Inc. - Dolby Digital.

Formatul este, de asemenea, numărul de canale din sistemele de sunet multicanal (5.1; 7.1). Inițial, un astfel de sistem a fost dezvoltat pentru cinematografe, dar ulterior a fost extins Software codec

Codec audio la nivel de program

§ G.723.1 - unul dintre codecurile de bază pentru aplicațiile de telefonie IP

§ G.729 este un codec proprietar de bandă îngustă care este utilizat pentru reprezentarea digitală a vorbirii

§ Internet Low Bitrate Codec (iLBC) - un codec gratuit popular pentru telefonia IP (în special, pentru Skype și Google Talk)

Codec audio(engleză) Codec audio; codificator/decodor audio) - program de calculator sau hardware, conceput pentru a codifica sau decoda date audio.

Codec software

Codec audio la nivel de program este specializat program de calculator, un codec care comprimă (comprimă) sau decomprimă (decomprimă) datele audio digitale în conformitate cu un format audio de fișier sau un format audio în flux. Sarcina unui codec audio ca compresor este de a furniza un semnal audio cu o calitate/precizie specificată și cea mai mică dimensiune posibilă. Compresia reduce cantitatea de spațiu necesară pentru stocarea datelor audio și poate reduce, de asemenea, lățimea de bandă a canalului prin care sunt transmise datele audio. Majoritatea codecurilor audio sunt implementate ca biblioteci de software care interacționează cu unul sau mai multe playere audio, cum ar fi QuickTime Player, XMMS, Winamp, VLC media player, MPlayer sau Windows Media Player.

Codecuri audio software populare în funcție de aplicație:

§ MPEG-1 Layer III (MP3) - un codec proprietar pentru înregistrări audio (muzică, cărți audio etc.) pentru echipamente informaticeși playere digitale

§ Ogg Vorbis (OGG) - al doilea cel mai popular format, utilizat pe scară largă în jocuri pe calculatorși în rețelele de partajare a fișierelor pentru transmiterea muzicii

§ GSM-FR - primul standard digital codificarea vorbirii folosită în telefoanele GSM

§ Adaptive multi rate (AMR) - înregistrarea vocii umane telefoane mobileși alte dispozitive mobile

Sunet– o undă cu amplitudine și frecvență în continuă schimbare. Cu cât amplitudinea este mai mare, cu atât este mai tare pentru o persoană, cu cât frecvența este mai mare, cu atât tonul este mai mare;

Audio digital este un semnal audio analogic reprezentat de valori numerice discrete ale amplitudinii sale.

În miez codificare audio Utilizarea computerelor este procesul de conversie a vibrațiilor aerului în vibrații de curent electric și eșantionarea ulterioară a semnalului electric analogic.

Codificarea și reproducerea informațiilor audio se realizează folosind programe speciale(editori de înregistrări).

Calitatea reproducerii audio codificate depinde de frecvența de eșantionare și de rezoluția acesteia.

Digitalizare audio - (sau conversie analog-digitală) - tehnologie pentru conversia analogică semnal sonorîn formă digitală, care se realizează prin măsurarea amplitudinii semnalului cu un anumit pas de timp și apoi înregistrarea valorilor obținute în formă numerică.

Digitalizarea audio implică două procese:

procesul de eșantionare (eșantionarea semnalului în timp);

proces de cuantizare prin amplitudine.

Procesul de eșantionare în timp - procesul de obținere a valorilor semnalului care sunt convertite cu un anumit pas de timp - etapa de eșantionare .

Se numește numărul de măsurători ale mărimii semnalului efectuate într-o secundă rata de eșantionare sau rata de eșantionare, sau rata de eșantionare(din engleză „ampling” - „sampling”).

Cu cât pasul de eșantionare este mai mic, cu atât frecvența de eșantionare este mai mare și o reprezentare mai precisă a semnalului pe care îl vom primi.

Proces cuantizarea amplitudinii - procesul de înlocuire a valorilor reale ale amplitudinii semnalului cu valori aproximate cu o oarecare precizie.

Cuantizarea– eșantionarea pe nivel.

Se presupune că erorile de cuantizare rezultate din cuantizarea pe 16 biți rămân aproape neobservate pentru ascultător.

Fiecare dintre cele 2 N niveluri posibile este numit nivelul de cuantizare, iar distanța dintre cele mai apropiate două niveluri de cuantizare se numește pas de cuantizare.

Se numește numărul N adâncimea de biți de cuantizare, iar numerele obținute ca urmare a rotunjirii valorilor de amplitudine sunt conteaza sau mostre(din engleză „eșantion” - „măsurat”).

Erorile de cuantizare rezultate din cuantizarea pe 16 biți rămân aproape invizibile pentru ascultător.

Digitalizare audio – rezumat:

Pro: puteți codifica orice sunet (inclusiv voce, fluier, foșnet, ...)

Contra: există o pierdere de informații, un volum mare de fișiere

Parametrii principali care afectează calitatea sunetului:

1. Adâncime de biți- dimensiunea (numărul de biți de informații codificați/decodați de ADC și DAC).

2. Rata de eșantionare- frecvența de eșantionare a unui semnal continuu în timp în timpul prelevării sale (ADC), măsurată în Herți.

3. Zgomot- abateri aleatorii de fază și/sau frecvență nedorite ale semnalului transmis

Formate de fișiere audio

WAV(Formă de undă audio format), adesea fără compresie (dimensiune!)

MP3 (MPEG-1 Audio Strat 3 , compresie ținând cont de percepția umană)

A.A.C. (Codare audio avansată, 48 de canale, compresie)

WMA (Windows Media Audio, streaming audio, compresie)

OGG (Ogg Vorbis, format deschis, compresie)

Dezmind miturile populare despre audio digital.

2017-10-01T15:27

Software pentru audiofili

Nota: Pentru o mai bună înțelegere a textului de mai jos, vă recomand cu căldură să vă familiarizați cu elementele de bază ale audio digital.

De asemenea, multe dintre punctele prezentate mai jos sunt acoperite în publicația mea „Încă o dată despre tristul adevăr: de unde vine cu adevărat sunetul bun?” .

Cu cât rata de biți este mai mare, cu atât calitatea piesei este mai bună.

Acesta nu este întotdeauna cazul. În primul rând, permiteți-mi să vă reamintesc ce este bitray T(bitrate, nu bitraid). Aceasta este de fapt rata de date în kilobiți pe secundă în timpul redării. Adică, dacă luăm dimensiunea unei piese în kilobiți și o împărțim la durata ei în secunde, obținem rata de biți a acesteia - așa-numita. Rata de biți bazată pe fișiere (FBR), de obicei nu este prea diferită de rata de biți a fluxului audio (motivul diferențelor este prezența metadatelor în pistă - etichete, imagini încorporate etc.).

Acum să luăm un exemplu: rata de biți a sunetului PCM necomprimat înregistrat pe un CD audio obișnuit este calculată după cum urmează: 2 (canale) × 16 (biți pe eșantion) × 44100 (mostre pe secundă) = 1411200 (bps) = 1411,2 kbps . Acum să luăm și să comprimăm piesa cu orice codec fără pierderi („fără pierderi” - „fără pierderi”, adică unul care nu duce la pierderea niciunei informații), de exemplu, codecul FLAC. Drept urmare, vom obține o rată de biți mai mică decât cea inițială, dar calitatea va rămâne neschimbată - iată prima dvs. respingere.

Mai este un lucru care merită adăugat aici. Rata de biți de ieșire cu compresie fără pierderi poate fi foarte diferită (dar, de regulă, este mai mică decât cea a audio necomprimat) - aceasta depinde de complexitatea semnalului comprimat sau, mai precis, de redundanța datelor. Astfel, semnalele mai simple vor fi comprimate mai bine (adică avem o dimensiune mai mică a fișierului pentru aceeași durată => rata de biți mai mică), iar cele mai complexe se vor comprima mai rău. Acesta este motivul pentru care muzica clasică fără pierderi are o rată de biți mai mică decât, să zicem, rock-ul. Dar trebuie subliniat că bitrate-ul de aici nu este în niciun caz un indicator al calității materialului audio.

Acum să vorbim despre compresia cu pierderi (cu pierderi). În primul rând, trebuie să înțelegeți că există multe codificatoare și formate diferite și, chiar și în același format, calitatea de codificare a diferitelor codificatoare poate diferi (de exemplu, QuickTime AAC codifică mult mai bine decât FAAC învechit), ca să nu mai vorbim superioritatea formatelor moderne (OGG Vorbis, AAC, Opus) față de MP3. Mai simplu spus, din două piese identice codificate de codificatori diferiți cu același bitrate, una va suna mai bine și alta va suna mai rău.

În plus, există așa ceva ca plic. Adică puteți lua o piesă în format MP3 cu un bitrate de 96 kbps și o puteți converti în MP3 320 kbps. Nu numai că calitatea nu se va îmbunătăți (la urma urmei, datele pierdute în timpul codificării anterioare de 96 kbit/s nu pot fi returnate), ci se va înrăutăți chiar. Merită să subliniem aici că în fiecare etapă a codării cu pierderi (cu orice bitrate și orice codificator), o anumită cantitate de distorsiune este introdusă în audio.

Și chiar mai mult. Mai este o nuanță. Dacă, să zicem, rata de biți a unui flux audio este de 320 kbps, aceasta nu înseamnă că toți cei 320 kbps au fost cheltuiți pentru codificare chiar în acea secundă. Acest lucru este tipic pentru codificarea cu o rată de biți constantă și pentru acele cazuri în care o persoană, sperând să obțină o calitate maximă, forțează rata de biți constantă să fie prea mare (de exemplu, setarea CBR de 512 kbps pentru Nero AAC). După cum se știe, numărul de biți alocați unui anumit cadru este reglementat de un model psihoacustic. Dar în cazul în care suma alocată este mult mai mică decât rata de biți setată, nici măcar rezervorul de biți nu salvează (citiți despre termenii din articolul „Ce sunt CBR, ABR, VBR?”) - ca urmare, devenim inutili „zero biți” care pur și simplu „termină” » dimensiunea cadrului la dimensiunea necesară (adică măriți dimensiunea fluxului la cea specificată). Apropo, acest lucru este ușor de verificat - comprimați fișierul rezultat cu un arhivator (de preferință 7z) și uitați-vă la raportul de compresie - cu cât este mai mare, cu atât mai mulți biți zero (deoarece duc la redundanță), cu atât mai mult spațiu irosit.

Codecurile cu pierderi (MP3 și altele) sunt capabile să facă față muzicii electronice moderne, dar nu sunt capabile de codificare de înaltă calitate a muzicii clasice (academice), live, instrumentale

„Ironia sorții” aici este că, de fapt, totul este exact invers. După cum se știe, muzica academică în marea majoritate a cazurilor urmează principii melodice și armonice, precum și compoziția instrumentală. Din punct de vedere matematic, aceasta rezultă într-o compoziție armonică relativ simplă a muzicii. Astfel, predominanța consonanțelor produce un număr mai mic de armonici secundare: de exemplu, pentru o cincime (un interval în care frecvențele fundamentale a două sunete diferă de o dată și jumătate), fiecare a doua armonică va fi comună celor două sunete. , pentru o patra, unde frecvențele diferă cu o treime - la fiecare treime și etc. În plus, prezența unor rapoarte de frecvență fixe, datorită utilizării temperamentului egal, simplifică și compoziția spectrală a muzicii clasice. Compoziția instrumentală live a clasicilor determină absența zgomotului caracteristic muzicii electronice, distorsiunea, salturile ascuțite de amplitudine și absența unui exces de componente de înaltă frecvență.

Factorii enumerați mai sus duc la faptul că muzica clasică este mult mai ușor de comprimat, în primul rând, pur matematic. Dacă vă amintiți, compresia matematică funcționează prin eliminarea redundanței (descrierea unor informații similare folosind mai puțini biți) și, de asemenea, prin realizarea de predicții (alias. predictori preziceți comportamentul semnalului și apoi este codificată doar abaterea semnalului real față de cel prezis - cu cât se potrivesc mai precis, cu atât sunt necesari mai puțini biți pentru codare). ÎN în acest caz, Compoziția și armonia spectrală relativ simplă determină o redundanță ridicată, a cărei eliminare asigură un grad semnificativ de compresie, iar numărul mic de rafale și componente de zgomot (care sunt semnale aleatorii și imprevizibile) determină o bună predictibilitate matematică a marii majorități a informațiilor. Și nici măcar nu vorbesc despre volumul mediu relativ scăzut al pieselor clasice și intervalele frecvente de tăcere, pentru care practic nu este nevoie de informații pentru a codifica. Ca rezultat, putem comprima fără pierderi, de exemplu, unele muzică instrumentală solo la rate de biți sub 320 kbps (encoderele TAK și OFR sunt destul de capabile de acest lucru).

Deci, în primul rând, faptul este că compresia matematică care stă la baza codificării fără pierderi este, de asemenea, una dintre etapele codificării cu pierderi (a se citi Înțelegerea codificării MP3). Și în al doilea rând, deoarece lossy utilizează transformata Fourier (descompunerea semnalului în armonici), simplitatea compoziției spectrale chiar face munca codificatorului de două ori mai ușoară. Ca rezultat, comparând mostrele de muzică clasică originale și codificate într-un test orb, suntem surprinși să constatăm că nu putem găsi nicio diferență, chiar și la un bitrate relativ scăzut. Și lucrul amuzant este că atunci când începem să reducem complet rata de codare, primul lucru care dezvăluie diferențele este zgomotul de fundal din înregistrare.

În ceea ce privește muzica electronică, codificatorii au o perioadă foarte dificilă cu ea: componentele de zgomot au o redundanță minimă, iar împreună cu sărituri ascuțite (un fel de impulsuri din dinți de ferăstrău) sunt semnale extrem de imprevizibile (pentru programatorii care sunt „cropit” la sunete naturale care se comportă). cu totul altfel), transformarea Fourier directă și inversă cu respingerea armonicilor individuale de către modelul psihoacustic produce inevitabil efecte pre- și post-eco, a căror audibilitate nu este întotdeauna ușor de evaluat de către codificator... Adăugați la aceasta și nivel ridicat de componente HF - și obțineți număr mare eșantioane ucigașe, cărora chiar și cei mai avansați codificatori nu le pot face față la rate medii-scăzute, destul de ciudat, mai ales în muzică electronică.

Distractive sunt și părerile „ascultătorilor cu experiență” și ale muzicienilor care, cu o lipsă totală de înțelegere a principiilor codării cu pierderi, încep să susțină că aud cum instrumentele din muzică după codare încep să se dezacordeze, frecvențele plutesc. , etc. Acest lucru ar putea fi încă valabil pentru casetofonele antediluviane cu detonație, dar în audio digital totul este exact: componenta de frecvență fie rămâne, fie este aruncată, pur și simplu nu este nevoie să se schimbe tonalitatea. Mai mult decât atât: prezența urechii unei persoane pentru muzică nu înseamnă deloc că are un auz bun de frecvență (de exemplu, capacitatea de a percepe frecvențe >16 kHz, care dispare odată cu vârsta) și nu-i face deloc mai ușor căutați artefacte de codare cu pierderi, deoarece distorsiunea Acestea au un caracter foarte specific și necesită experiența de comparare oarbă a sunetului cu pierderi - trebuie să știți ce și unde să căutați.

DVD-Audio sună mai bine decât CD-ul audio (24 de biți față de 16, 96 kHz față de 44,1 etc.)

Din păcate, oamenii se uită de obicei doar la cifre și foarte rar se gândesc la impactul unui anumit parametru asupra calității obiective.

Să luăm în considerare mai întâi adâncimea de biți. Acest parametru nu este responsabil pentru nimic mai mult decât intervalul dinamic, adică diferența dintre cele mai silentioase și cele mai puternice sunete (în dB). În audio digital, nivelul maxim este de 0 dBFS (FS - scară completă), iar minimul este limitat de nivelul de zgomot, adică, de fapt, intervalul dinamic în valoare absolută este egal cu nivelul de zgomot. Pentru audio pe 16 biți, intervalul dinamic este calculat ca 20 × log 10 2 16, care este egal cu 96,33 vB. În același timp, intervalul dinamic al unei orchestre simfonice este de până la 75 dB (în mare parte aproximativ 40-50 dB).

Acum să ne imaginăm condiții reale. Nivelul de zgomot din cameră este de aproximativ 40 dB (nu uitați că dB este o valoare relativă. În acest caz, pragul de audibilitate este luat ca 0 dB), volumul maxim al muzicii ajunge la 110 dB (pentru a evita disconfortul) - noi obține o diferență de 70 dB. Astfel, se dovedește că un interval dinamic de peste 70 dB în acest caz este pur și simplu inutil. Adică cu un interval de peste sau sunete puternice va atinge un prag de durere, sau sunete liniştite va fi absorbit de zgomotul din jur. Este foarte dificil să se atingă un nivel de zgomot ambiental mai mic de 15 dB (deoarece volumul respirației umane și al altor zgomote cauzate de fiziologia umană sunt la acest nivel), ca urmare, se dovedește un interval de 95 dB pentru ascultarea muzicii. să fie complet suficientă.

Acum despre frecvența de eșantionare (frecvența de eșantionare, rata de eșantionare). Acest parametru controlează frecvența de eșantionare în timp și afectează direct frecvența maximă a semnalului care poate fi descrisă de o anumită reprezentare audio. Conform teoremei lui Kotelnikov, este egal cu jumătate din frecvența de eșantionare. Adică, pentru frecvența obișnuită de eșantionare de 44100 Hz, frecvența maximă a componentelor semnalului este de 22050 Hz. Frecvența maximă. care este perceput de urechea umană este puțin peste 20.000 Hz (și apoi la naștere; pe măsură ce îmbătrânim, pragul scade la 16.000 Hz).

Cel mai bun acest subiect este acoperit în articolul 24/192 descărcări - de ce nu au sens.

Diferiți jucători software sună diferit (de exemplu, foobar2000 este mai bun decât Winamp etc.)

Pentru a înțelege de ce nu este cazul, trebuie să înțelegeți ce este un player software. În esență, acesta este un decodor, handlere (opțional), un plugin de ieșire (la una dintre interfețele: ASIO, DirectSound, WASAPI etc.) și, desigur, GUI ( GUI utilizator). Deoarece decodorul în 99,9% din cazuri funcționează conform unui algoritm standard, iar plug-in-ul de ieșire este doar o parte a programului care transmite fluxul către placa de sunet prin una dintre interfețe, singurul motiv pentru diferențe poate fi manipulatorii. Dar adevărul este că handlerele sunt de obicei dezactivate implicit (sau ar trebui să fie dezactivate, deoarece principalul lucru pentru jucator bun- să poată transmite sunetul în forma sa „pristine”). Ca urmare, singurul subiect de comparație aici poate fi posibilităților procesare și ieșire, care, apropo, de multe ori nu sunt deloc necesare. Dar chiar dacă există o astfel de nevoie, atunci aceasta este o comparație a procesoarelor, și nu a jucătorilor.

Diferite versiuni de drivere sună diferit

Această afirmație se bazează pe ignorarea banală a principiilor de funcționare a unei plăci de sunet. Șoferul este software, necesar pentru interacțiunea eficientă a dispozitivului cu sistem de operare, care oferă de obicei o interfață grafică de utilizator pentru a vă permite să gestionați dispozitivul, setările acestuia etc. Driverul plăcii de sunet asigură că placa de sunet este recunoscută ca placă de sunet Dispozitive Windows, informează sistemul de operare despre formatele suportate de card, asigură transmiterea unui flux PCM necomprimat (în majoritatea cazurilor) către card și oferă, de asemenea, acces la setări. În plus, dacă există procesare software (folosind instrumente CPU), driverul poate conține diferite DSP-uri (procesoare). Prin urmare, în primul rând, cu efectele și procesarea dezactivate, dacă driverul nu oferă transmisie PCM precisă pe card, aceasta este considerată o eroare gravă, o eroare critică. Și asta se întâmplă extrem de rare. Pe de altă parte, diferențele dintre drivere pot fi în actualizarea algoritmilor de procesare (resampler, efecte), deși acest lucru nu se întâmplă des. Mai mult, pentru a realiza cea mai înaltă calitate efectele și orice procesare a driverului ar trebui în continuare excluse.

Astfel, actualizările driverelor sunt axate în principal pe îmbunătățirea stabilității și eliminarea erorilor de procesare. Nici unul, nici celălalt în cazul nostru nu afectează calitatea redării, prin urmare în 999 de cazuri din 1000 driverul nu are niciun efect asupra sunetului.

CD-urile audio cu licență sună mai bine decât copiile lor

Dacă nu au apărut erori (fatale) de citire/scriere în timpul copierii și unitate optică dispozitiv pe care va fi redat discul de copiere, nu există probleme cu citirea acestuia, atunci o astfel de afirmație este eronată și ușor de respins.

Modul de codare stereo oferă o calitate mai bună decât Joint Stereo

Această concepție greșită se referă în principal la LAME MP3, deoarece toate codificatoarele moderne (AAC, Vorbis, Musepack) folosesc numai Modul Stereo comun (și asta spune deja ceva)

Pentru început, merită menționat că modul Joint Stereo este utilizat cu succes cu compresie fără pierderi. Esența sa constă în faptul că, înainte de codificare, semnalul este descompus în suma canalelor dreapta și stânga (Mid) și diferența lor (Side), iar apoi are loc codificarea separată a acestor semnale. În limită (pentru aceleași informații în canalele dreapta și stânga), se obțin economii duble de date. Și deoarece în majoritatea muzicii informațiile din canalele din dreapta și din stânga sunt destul de asemănătoare, această metodă se dovedește a fi foarte eficientă și vă permite să creșteți semnificativ raportul de compresie.

În lossy principiul este același. Dar aici, în modul de bitrate constant, calitatea fragmentelor cu informații similare pe două canale va crește (în limită, dublu), iar pentru modul VBR în astfel de locuri, rata de biți va scădea pur și simplu (nu uitați că sarcina principală al modului VBR este menținerea stabilă a calității de codificare specificată, folosind cel mai mic bitrate posibil). Deoarece în timpul codificării cu pierderi, prioritatea (la distribuirea biților) este acordată sumei canalelor, pentru a evita deteriorarea panoramei stereo, comutarea dinamică între stereo mixt (Mid/Side) și stereo obișnuit (Stânga/Dreapta) bazat pe cadru. se utilizează moduri. Apropo, motivul acestei concepții greșite a fost imperfecțiunea algoritmului de comutare în versiunile mai vechi ale LAME, precum și prezența modului de îmbinare forțată, în care nu există comutare automată. ÎN ultimele versiuni Modul LAME Joint este activat implicit și nu este recomandat să îl schimbați.

Cu cât spectrul este mai larg, cu atât calitatea înregistrării este mai bună (despre spectrograme, auCDtect și interval de frecvență)

În zilele noastre, pe forumuri, din păcate, este foarte comun să se măsoare calitatea unei piese „cu o riglă folosind o spectrogramă”. Evident, datorită simplității acestei metode. Dar, după cum arată practica, în realitate totul este mult mai complicat.

Și iată chestia. Spectrograma demonstrează vizual distribuția puterii semnalului pe frecvențe, dar nu poate oferi o imagine completă a sunetului înregistrării, prezența distorsiunilor și artefactelor de compresie în ea. Adică, în esență, tot ceea ce poate fi determinat din spectrogramă este gama de frecvente(și parțial - densitatea spectrului în regiunea HF). Adică, în cel mai bun caz, prin analiza spectrogramei, se poate identifica o conversie ascendentă. Compararea spectrogramelor de piste obținute prin codificare cu diferite codificatoare cu originalul este o absurditate totală. Da, puteți identifica diferențele în spectru, dar a determina dacă (și în ce măsură) vor fi percepute de urechea umană este aproape imposibil. Nu trebuie să uităm că sarcina codării cu pierderi este de a asigura un rezultat care nu se poate distinge urechea umană din original (nu cu ochii).

Același lucru este valabil și pentru evaluarea calității codificării prin analiza pieselor de ieșire cu programul auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - acestea sunt doar shell-uri pentru programul de consolă unic auCDtect). Algoritmul auCDtect analizează de fapt și intervalul de frecvență și vă permite doar să determinați (cu un anumit grad de probabilitate) dacă compresia MPEG a fost aplicată în oricare dintre etapele de codificare. Algoritmul este adaptat pentru MP3, deci este ușor să îl „înșeli” cu ajutorul codecurilor Vorbis, AAC și Musepack, deci chiar dacă programul scrie „100% CDDA”, asta nu înseamnă că audio codificat este 100% identic cu cel original.

Și revenind direct la spectre. Există, de asemenea, o dorință populară printre unii „entuziaști” de a dezactiva cu orice preț filtrul lowpass din encoderul LAME. Există o lipsă clară de înțelegere a principiilor de codificare și psihoacustică. În primul rând, encoderul taie frecvențele înalte doar pentru un singur scop - pentru a salva date și pentru a le folosi pentru a codifica cea mai audibilă gamă de frecvențe. Gama extinsă de frecvență poate avea un impact fatal asupra calității generale a sunetului și poate duce la artefacte de codare audibile. În plus, dezactivarea limitării la 20 kHz este în general complet nejustificată, deoarece o persoană pur și simplu nu poate auzi frecvențe mai mari.

Există o anumită presetare a egalizatorului „magic” care poate îmbunătăți semnificativ sunetul

Acest lucru nu este în întregime adevărat, în primul rând, deoarece fiecare configurație individuală (căști, acustică, placa de sunet) are propriii parametri (în special, caracteristica amplitudine-frecvență). Și, prin urmare, fiecare configurație trebuie să aibă propria abordare unică. Mai simplu spus, o astfel de presetare a egalizatorului există, dar diferă pentru diferite configurații. Esența sa constă în ajustarea răspunsului în frecvență al căii, și anume în „nivelarea” scăderilor și creșterilor nedorite.

De asemenea, printre oamenii care sunt departe de a lucra direct cu sunetul, setarea unui egalizator grafic cu un „tic” este foarte populară, ceea ce reprezintă de fapt o creștere a nivelului componentelor de joasă și înaltă frecvență, dar în același timp conduce la înăbușirea vocii și a instrumentelor, al căror spectru sonor se află în regiunea de frecvență medie.

Înainte de a converti muzica într-un alt format, ar trebui să o decomprimați în WAV

Permiteți-mi să notez imediat că WAV înseamnă date PCM (modularea codului de impulsuri) în containerul WAVE (fișier cu extensia *.wav). Aceste date nu sunt altceva decât o secvență de biți (zerouri și unu) în grupuri de 16, 24 sau 32 (în funcție de adâncimea de biți), fiecare dintre acestea reprezentând codul binar al amplitudinii eșantionului corespunzător (de exemplu, pentru 16 biți în notație zecimală acestea sunt valori de la -32768 la +32768).

Deci, adevărul este că orice procesor de sunet - fie că este un filtru sau un encoder - funcționează de obicei numai cu aceste valori, adică numai cu date necomprimate. Aceasta înseamnă că pentru a converti audio de la, de exemplu, FLAC în APE, pur și simplu necesar Mai întâi decodați FLAC în PCM, apoi codificați PCM în APE. Este ca și cum ați reambala fișierele din ZIP în RAR, mai întâi trebuie să despachetați fișierul ZIP.

Cu toate acestea, dacă utilizați un convertor sau doar un codificator de consolă avansat, conversia intermediară în PCM are loc din mers, uneori fără a scrie măcar într-un fișier WAV temporar. Acesta este ceea ce induce oamenii în eroare: se pare că formatele sunt convertite direct dintr-unul în altul, dar de fapt un astfel de program trebuie să aibă un decodor de format de intrare care să realizeze conversia intermediară în PCM.

Astfel, convertirea manuală în WAV nu vă va oferi absolut nimic altceva decât pierdere de timp.

Ce va determina calitatea sunetului digitalizat?

Pentru calitatea sunetului digital, două lucruri sunt esențiale: calitatea coloanei sonore originale și calitatea convertorului analog-digital.

În ceea ce privește calitatea coloanei sonore originale, totul este aproximativ clar. Dacă este curbat (cu distorsiuni) sau zgomotos, atunci nicio digitizare nu o va îmbunătăți. Ei bine, adică, este posibil, prin diverse procesări, inclusiv digitale, să izolați un semnal util, care este folosit la izolarea vorbirii pe fundalul zgomotului extern sau la izolarea unui semnal obișnuit pe fondul zgomotului aleatoriu (toată lumea are am văzut filme despre rotiri, nu?), dar dacă vorbim despre o fonogramă muzicală, adică o fonogramă cu spectru larg, atunci tot felul de trucuri nu vor ajuta.

Deci vom presupune că fonograma este de înaltă calitate.

Apoi tot ce rămâne este ADC.

Indicatorul principal aici este adâncimea biților de codificare. Este clar că cu cât este mai mare, cu atât mai bine, dar, pe de altă parte, cu atât este mai complex și mai scump un astfel de convertor. În zorii tehnologiei digitale (care nu a fost cu mult timp în urmă...), o înregistrare finală pe 16 biți a fost recunoscută ca fiind optimă în ceea ce privește raportul preț/calitate. Cu o adâncime mai mică de biți, intervalul dinamic al unei copii digitale a unei fonograme are de suferit - sunetele de nivel scăzut (pianissimo) reprezintă doar o mică parte din toți biții, ceea ce înseamnă că natura treptată a schimbării semnalului devine vizibilă. Și filtrarea trece-jos nu va ajuta prea mult aici (mențiunile despre teorema lui Kotelnikov sunt binevenite, dar nu trebuie să uităm că presupune în mod tacit perfect conversie analog-digitală, adică cu o adâncime de biți infinit mare). Deoarece orice procesare, chiar și în formă digitală, nu poate decât să reducă adâncimea efectivă de biți, digitizarea în studiouri a fost și continuă să fie efectuată până în prezent cu un număr mai mare de biți.

În zilele noastre nu mai este neobișnuit ca fonogramele digitale să fie pregătite cu o adâncime de biți de 24 de biți (super-Audio CD, Audio-DVD). Cu o asemenea profunzime, va fi posibil să transmitem pe deplin gama dinamică a oricărei lucrări muzicale, chiar și Bolero-ul lui Ravel, care începe cu o parte abia audibilă a tobelor și se termină fortissimo cu întreaga orchestră.

Poftim. Pe lângă adâncimea de biți, alți parametri ADC sunt de asemenea importanți, în primul rând neliniaritatea și zgomotul. Mai ales zgomote. Deoarece limitează capacitatea efectivă de biți a convertorului. Ce rost au acești 24 de biți dacă ultimii 8 dintre ei sunt zgomotoși și, prin urmare, nu au nicio semnificație? informatii utile... Nivelul de zgomot al ADC-urilor moderne pe 24 de biți poate atinge -115 dB la rate de eșantionare de peste 100 kHz, ceea ce este deja destul de decent, iar neliniaritatea diferențială este măsurată în zece miimi de procent. Adică, astfel de soluții depășesc cu ușurință capacitățile urechii umane.

Va depinde de trei parametri principali:
1. Rata de eșantionare. Limitează lățimea de bandă a frecvențelor transmise: frecvența maximă a semnalului transmis este sub jumătate din frecvența de eșantionare. În telefonie, se folosește cel mai adesea o frecvență de eșantionare de 8 kHz, ceea ce dă o bandă teoretică puțin mai îngustă decât 4 kHz (în practică, se folosește o bandă de 300-3000 Hz). Și standardul CD utilizează o frecvență de 44,1 kHz, ceea ce face posibilă transmiterea completă a spectrului de 20 Hz - 20 kHz. Creșterea ratei de eșantionare peste aceste valori nu are sens în ceea ce privește gama de frecvențe transmise, dar reduce nivelul distorsiunii intermodulației. În standardul DVD Audio, frecvența maximă de eșantionare este de 192 kHz, unele plăci audio bune pentru computere acceptă și această frecvență de eșantionare (lățimea de bandă a frecvențelor de redare și înregistrare diferă de la model la model). Alte valori standard sunt 96, 48, 32, 22,05, 11,025 kHz.
2. Adâncimea de codare a biților. Intervalul dinamic depinde de acesta - cu codificare liniară, diferența dintre swing complet și pasul minim este de 256 de ori pentru 8 biți și de 65536 de ori pentru 16 biți, care este de 48 și, respectiv, 96 dB. 48 dB este sincer scăzut, acesta este nivelul intervalului dinamic al unei casete compacte și, în plus, pe lângă intervalul dinamic îngust, apar distorsiuni neplăcute, mai ales clar audibile în locuri liniștite - o consecință a transformării unui semnal neted într-unul în trepte. La 16 biți, calitatea sunetului este deja destul de bună (aceasta este adâncimea de biți pe care o folosește un CD), dar nu ideală în multe cazuri reale - multe lucrări clasice, precum și muzica grea, necesită un DD mai mare. Sistemele de înaltă calitate utilizează codare pe 24 de biți, deși numărul real de biți semnificativi nu depășește 18-20. Nu are rost să creștem în continuare adâncimea de biți.
3. Metoda de codificare. Există două laturi ale acestui lucru. Prima este scala de eșantionare în sine. De obicei este liniară, dar poate fi și logaritmică. Acest lucru dă o creștere a intervalului dinamic cu aceeași adâncime de biți, dar nivelul de distorsiune este mai mare decât cu același interval dinamic cu o scară liniară și adâncime de biți mai mare. Al doilea este utilizarea diverșilor algoritmi de compresie cu pierderi. În legătură cu acesta din urmă, apare conceptul de bitrate. Acesta din urmă este numărul de biți necesari pentru a codifica o secundă de audio. Desigur, rata de biți depinde de frecvența de eșantionare și adâncimea de biți, dar și de raportul de compresie. Compresia poate fi cu pierderi sau fără pierderi. Compresia fără pierderi este în esență o arhivare obișnuită și nu afectează sunetul. Și cu pierderi, de aceea sunt pierderi. Codificatorul analizează informațiile audio și elimină datele, ghidat de considerații psihoacustice: pierderea a ceea ce va fi cel mai puțin audibil. Adică, un sunet slab pe fundalul unuia puternic, sunete slabe de înaltă frecvență pe fundalul sunetelor puternice de frecvență medie și așa mai departe. Pe mediu și frecvente inalte informațiile de fază pot fi aruncate. Ca urmare, atunci când o înregistrare este comprimată cu calitate CD de 4,5 ori (bitrate 320 kbps, mp3/Lame), deteriorarea sonoră a înregistrării este atât de nesemnificativă încât, fără un echipament bun, este foarte dificil să discerneți diferența. Și cu un bitrate de 128, deteriorarea calității sunetului este deja evidentă și multe înregistrări sună pur și simplu neplăcut. Dar cu difuzoare din plastic sau difuzoare încorporate în laptop, nu veți auzi această diferență.