Çfarë e përcakton cilësinë e zërit dixhital? Cilat parametra përcaktojnë cilësinë e zërit dixhital?

Shtëpi / Rimëkëmbja e të dhënave

Tingulliështë një valë që përhapet më shpesh në ajër, ujë ose në një mjedis tjetër me intensitet dhe frekuencë që ndryshon vazhdimisht.

Një person mund të perceptojë valët e zërit (dridhjet e ajrit) me ndihmën e dëgjimit në formën e zërit, duke dalluar volumin dhe tonin.

Sa më shumë intensiteti valë zanore, sa më e lartë të jetë tingulli, aq më e lartë është frekuenca e valës, aq më e lartë është lartësia e zërit.

Varësia e volumit, si dhe lartësia e zërit, nga intensiteti dhe frekuenca e valës së zërit

Herc(tregohet nga Hz ose Hz) - një njësi matëse e frekuencës së proceseve periodike (për shembull, lëkundjet). 1 Hz nënkupton një ekzekutim të një procesi të tillë në një sekondë: 1 Hz = 1/s.

Nëse kemi 10 Hz, atëherë kjo do të thotë se kemi dhjetë ekzekutime të një procesi të tillë në një sekondë.

Veshi i njeriut mund të perceptojë zërin në frekuenca që variojnë nga 20 dridhje për sekondë (20 Hertz, zë i ulët) deri në 20,000 dridhje për sekondë (20 KHz, zë i lartë).

Për më tepër, një person mund të perceptojë tingullin në një gamë të gjerë intensiteti, në të cilin intensiteti maksimal është 1014 herë më i madh se minimumi (njëqind mijë miliardë herë).

Për të matur vëllimin e zërit, një njësi speciale u shpik dhe u përdor " decibel" (dB)

Një ulje ose rritje e volumit të zërit me 10 dB korrespondon me një ulje ose rritje të intensitetit të zërit me 10 herë.

Vëllimi i zërit në decibel

Në mënyrë që sistemet kompjuterike të përpunojnë zërin, sinjali audio i vazhdueshëm duhet të shndërrohet në formë dixhitale, diskrete duke përdorur kampionimin e kohës.

Për ta bërë këtë, një valë e vazhdueshme e zërit ndahet në seksione të veçanta të vogla të përkohshme, dhe për secilin seksion të tillë vendoset një vlerë e caktuar e intensitetit të zërit.

Kështu, varësia e vazhdueshme e volumit të zërit nga koha A(t) zëvendësohet nga një sekuencë diskrete e niveleve të zërit. Në grafik, kjo duket si zëvendësimi i një kurbë të qetë me një sekuencë "hapash".

Mostra kohore e audios

Një mikrofon i lidhur me kartën e zërit përdoret për të regjistruar audio analoge dhe për ta kthyer atë në formë dixhitale.

Sa më të dendura të jenë shiritat diskrete në grafik, aq më cilësor do të jeni në gjendje të rikrijoni tingullin origjinal.

Cilësia e tingullit dixhital që rezulton varet nga numri i matjeve të nivelit të volumit të zërit për njësi të kohës, pra nga frekuenca e marrjes së mostrave.

Shkalla e kampionimit të audiosështë numri i matjeve të volumit të zërit në një sekondë.

Sa më shumë matje të bëhen në një sekondë (sa më e lartë të jetë frekuenca e kampionimit), aq më saktë "shkalla" e sinjalit audio dixhital ndjek kurbën e sinjalit analog.

Çdo "hapi" në grafik i caktohet një vlerë specifike e nivelit të volumit të zërit. Nivelet e volumit të zërit mund të mendohen si një grup gjendjesh të mundshme N(gradacione), për kodimin e të cilave kërkohet një sasi e caktuar informacioni I, e cila quhet thellësia e kodimit audio.

Thellësia e kodimit audioështë sasia e informacionit të nevojshëm për të koduar nivelet diskrete të volumit të audios dixhitale.

Nëse dihet thellësia e kodimit, atëherë numri i niveleve të volumit të zërit dixhital mund të llogaritet duke përdorur formulën e përgjithshme N=2I.

Për shembull, le të jetë thellësia e kodimit të audios 16 bit, në këtë rast numri i niveleve të volumit të audios është i barabartë me:

N = 2 I = 2 16 = 65,536.

Gjatë procesit të kodimit, çdo niveli të vëllimit të zërit i caktohet kodi i tij binar 16-bit, niveli më i ulët i zërit do të korrespondojë me kodin 0000000000000000, dhe më i larti - 1111111111111111.

Cilësi e dixhitalizuar e zërit

Pra, sa më e lartë të jetë frekuenca e kampionimit dhe thellësia e kodimit të audios, aq më e lartë do të tingëllojë audio e dixhitalizuar dhe aq më mirë mund ta afroni audion e dixhitalizuar me tingullin origjinal.

Cilësia më e ulët e zërit të dixhitalizuar, që korrespondon me cilësinë e komunikimit telefonik, merret me një shkallë kampionimi prej 8000 herë në sekondë, një thellësi kampionimi prej 8 bit dhe regjistrim të një pjese audio (mode mono).

Audioja e dixhitalizuar me cilësi më të lartë, që korrespondon me cilësinë e CD-së audio, arrihet me një shkallë kampionimi prej 48,000 herë në sekondë, një thellësi kampionimi prej 16 bit dhe regjistrim të dy pjesëve audio (modaliteti stereo).

Duhet mbajtur mend se sa më i lartë të jetë cilësia e zërit dixhital, aq më i madh është vëllimi i informacionit të skedarit të zërit.

Mund të vlerësoni lehtësisht vëllimin e informacionit të një skedari audio stereo dixhital me një kohëzgjatje tingulli prej 1 sekondë me cilësi mesatare të zërit (16 bit, 24,000 matje për sekondë). Për ta bërë këtë, thellësia e kodimit duhet të shumëzohet me numrin e matjeve për sekondë dhe të shumëzohet me 2 kanale (tingulli stereo):

16 bit × 24,000 × 2 = 768,000 bit = 96,000 byte = 93,75 KB.

Redaktorët e zërit

Redaktorët e zërit ju lejojnë jo vetëm të regjistroni dhe riprodhoni tingullin, por edhe ta modifikoni atë. Më të shquarit mund të quhen me siguri, si p.sh Sony Sound Forge, Adobe Audition, Vala e Artë dhe të tjerë.

Tingulli i dixhitalizuar paraqitet në redaktuesit e zërit në një formë vizuale të qartë, kështu që kopjimi, lëvizja dhe fshirja e pjesëve të pjesës audio mund të bëhet lehtësisht duke përdorur një mi kompjuteri.

Përveç kësaj, ju mund të mbivendoseni, mbivendoseni këngë audio mbi njëri-tjetrin (përzieni tingujt) dhe aplikoni efekte të ndryshme akustike (jehonë, riprodhim në të kundërt, etj.).

Redaktuesit e tingullit ju lejojnë të ndryshoni cilësinë e zërit dixhital dhe madhësinë e skedarit përfundimtar të zërit duke ndryshuar frekuencën e kampionimit dhe thellësinë e kodimit. Audioja e dixhitalizuar mund të ruhet e pakompresuar në skedarë audio në formatin universal WAV (format Microsoft) ose në formatet e ngjeshur OGG, MP3 (kompresim me humbje).
Ekzistojnë gjithashtu formate më pak të zakonshme, por të rëndësishme të kompresimit pa humbje.

Kur ruani tingullin në formate të kompresuara, frekuencat e tingullit me intensitet të ulët që janë të padëgjueshme dhe të padukshme ("të tepërta") për perceptimin njerëzor, që përkojnë në kohë me frekuencat e zërit me intensitet të lartë, hidhen poshtë. Përdorimi i këtij formati ju lejon të kompresoni skedarët e zërit dhjetëra herë, por çon në humbje të pakthyeshme të informacionit (skedarët nuk mund të rikthehen në formën e tyre origjinale, origjinale).

Parametrat kryesorë që ndikojnë në cilësinë e regjistrimit audio dixhital janë:

§ Kapaciteti bit i ADC dhe DAC.

§ Normat e kampionimit ADC dhe DAC.

§ Jitter ADC dhe DAC

§ Mbikampionimi

Gjithashtu të rëndësishme janë parametrat e rrugës analoge të pajisjeve dixhitale të regjistrimit dhe riprodhimit të zërit:

§ Raporti sinjal ndaj zhurmës

§ Faktori i shtrembërimit harmonik

§ Shtrembërim intermodulues

§ Karakteristikat e pabarabarta amplitudë-frekuencë

§ Ndërthyerja e kanaleve

§ Gama dinamike

Teknologji dixhitale e regjistrimit të audios

Regjistrimi audio dixhital aktualisht kryhet në studiot e regjistrimit të menaxhuara nga kompjuterët personalë dhe pajisje të tjera të shtrenjta dhe me cilësi të lartë. Koncepti i një "studio në shtëpi" është gjithashtu mjaft i zhvilluar, në të cilin përdoren pajisje regjistrimi profesionale dhe gjysmë-profesionale, e cila ju lejon të krijoni regjistrime me cilësi të lartë në shtëpi.

Kartat e zërit përdoren si pjesë e kompjuterëve që kryejnë përpunim në ADC-të dhe DAC-të e tyre - më shpesh në 24 bit dhe 96 kHz, rritja e mëtejshme e thellësisë së bitit dhe frekuenca e kampionimit praktikisht nuk rrit cilësinë e regjistrimit.

Ekziston një klasë e tërë e programeve kompjuterike - redaktues të tingullit që ju lejojnë të punoni me tingull:

§ regjistro transmetimin audio në hyrje

§ krijojë (gjenerojë) tingull

§ ndryshoni një regjistrim ekzistues (shtoni mostra, ndryshoni timbrin, shpejtësinë e zërit, pjesët e prera, etj.)

§ rishkruani nga një format në tjetrin

§ konvertoni konvertimin e kodekëve të ndryshëm audio

Disa programe të thjeshta, lejojnë vetëm konvertimin e formateve dhe kodekëve.

Llojet e formateve audio dixhitale

Ekzistojnë koncepte të ndryshme të formatit të zërit.

Formati për paraqitjen e të dhënave audio në formë dixhitale varet nga metoda e kuantizimit të përdorur nga konverteri dixhital në analog (DAC). Në inxhinierinë audio, dy lloje të kuantizimit janë aktualisht më të zakonshmet:

§ modulimi i kodit të pulsit

§ modulimi sigma-delta

Shpesh, thellësia e bitit të kuantizimit dhe frekuenca e kampionimit tregohen për pajisje të ndryshme regjistrimi dhe riprodhimi audio si formati i prezantimit audio dixhital (24 bit/192 kHz; 16 bit/48 kHz).

Formati i skedarit përcakton strukturën dhe veçoritë e prezantimit të të dhënave audio kur ruhen në një pajisje ruajtëse PC. Për të eliminuar tepricën në të dhënat audio, kodekët audio përdoren për të kompresuar të dhënat audio. Ekzistojnë tre grupe të formateve të skedarëve të zërit:

§ Formatet audio të pakompresuara si WAV, AIFF

§ formate audio me kompresim pa humbje (APE, FLAC)

§ formatet audio duke përdorur kompresim me humbje (mp3, ogg)

Formatet modulare të skedarëve muzikorë dallohen. Të krijuara në mënyrë sintetike ose nga mostrat e instrumenteve live të regjistruara paraprakisht, ato shërbejnë kryesisht për krijimin e muzikës moderne elektronike (MOD). Kjo përfshin gjithashtu formatin MIDI, i cili nuk është një regjistrim zanor, por në të njëjtën kohë, duke përdorur një sekuencues, ju lejon të regjistroni dhe luani muzikë duke përdorur një grup specifik komandash në formë teksti.

Formatet e mediave audio dixhitale përdoren si për shpërndarjen masive të regjistrimeve të zërit (CD, SACD) dhe në regjistrimin profesional të zërit (DAT, minidisk).

Për sistemet e tingullit rrethues, është gjithashtu e mundur të dallohen formatet audio, të cilat janë kryesisht shoqërues audio me shumë kanale për filmat. Sisteme të tilla kanë familje të tëra formatesh nga dy kompani të mëdha konkurruese, Digital Theatre Systems Inc. - DTS dhe Dolby Laboratories Inc. - Dolby Digital.

Formati është gjithashtu numri i kanaleve në sistemet e zërit me shumë kanale (5.1; 7.1). Fillimisht, një sistem i tillë u zhvillua për kinematë, por më pas u zgjerua kodek softuerësh

Kodiku i audios në nivel programi

§ G.723.1 - një nga kodekët bazë për aplikacionet e telefonisë IP

§ G.729 është një kodek pronësor me brez të ngushtë që përdoret për paraqitjen dixhitale të të folurit

§ Kodeku me shpejtësi të ulët të internetit (iLBC) - një kodek popullor falas për telefoninë IP (në veçanti, për Skype dhe Google Talk)

Kodiku i audios(anglisht) Kodiku i audios; audio encoder/decoder) - program kompjuterik ose hardware, i projektuar për të koduar ose deshifruar të dhënat audio.

Kodiku i softuerit

Kodiku i audios në nivel programiështë e specializuar program kompjuterik, një kodek që kompreson (ngjesh) ose çkompreson (çkompreson) të dhënat audio dixhitale sipas një formati audio skedari ose formati audio të transmetimit. Puna e një kodiku audio si kompresor është të sigurojë një sinjal audio me një cilësi/saktësi të caktuar dhe madhësinë më të vogël të mundshme. Kompresimi zvogëlon sasinë e hapësirës së nevojshme për ruajtjen e të dhënave audio dhe gjithashtu mund të zvogëlojë gjerësinë e brezit të kanalit mbi të cilin transmetohen të dhënat audio. Shumica e kodekëve audio zbatohen si biblioteka softuerësh që ndërveprojnë me një ose më shumë luajtës audio, si QuickTime Player, XMMS, Winamp, VLC media player, MPlayer ose Windows Media Player.

Kodekët audio të softuerit të njohur sipas aplikacionit:

§ MPEG-1 Layer III (MP3) - një kodek i pronarit për regjistrimet audio (muzikë, libra audio, etj.) për pajisje kompjuterike dhe lojtarët dixhitalë

§ Ogg Vorbis (OGG) - formati i dytë më i popullarizuar, i përdorur gjerësisht në lojëra kompjuterike dhe në rrjetet e ndarjes së skedarëve për transmetimin e muzikës

§ GSM-FR - së pari standard dixhital kodimi i të folurit i përdorur në telefonat GSM

§ Shumë norma adaptive (AMR) - regjistrimi i zërit të njeriut telefonat celularë dhe pajisje të tjera celulare

Tingulli– një valë me amplitudë dhe frekuencë që ndryshon vazhdimisht. Sa më e madhe të jetë amplituda, aq më e lartë është për një person, aq më e madhe është frekuenca;

Audio dixhitaleështë një sinjal audio analog i përfaqësuar nga vlera numerike diskrete të amplitudës së tij.

Në thelb kodimi audio Përdorimi i kompjuterëve është procesi i shndërrimit të dridhjeve të ajrit në dridhje të rrymës elektrike dhe marrjes së mostrave pasuese të sinjalit elektrik analog.

Kodimi dhe riprodhimi i informacionit audio kryhet duke përdorur programe speciale(redaktorët e regjistrimit).

Cilësia e riprodhimit të audios së koduar varet nga frekuenca e marrjes së mostrave dhe rezolucioni i saj.

Dixhitalizimi i audios - (ose konvertim analog në dixhital) - teknologji për konvertimin analog sinjal zanor në formë dixhitale, e cila kryhet duke matur amplitudën e sinjalit me një hap të caktuar kohor dhe më pas duke regjistruar vlerat e marra në formë numerike.

Dixhitalizimi i audios përfshin dy procese:

procesi i kampionimit (kampionimi i sinjalit me kalimin e kohës);

procesi i kuantizimit nga amplituda.

Procesi i kampionimit të kohës - procesi i marrjes së vlerave të sinjalit që konvertohen me një hap të caktuar kohor - hapi i kampionimit .

Numri i matjeve të madhësisë së sinjalit të kryera në një sekondë quhet norma e kampionimit ose frekuenca e marrjes së mostrave, ose norma e kampionimit(nga anglishtja "ampling" - "mostrim").

Sa më i vogël të jetë hapi i marrjes së mostrave, aq më e lartë është frekuenca e marrjes së mostrave dhe paraqitja më e saktë e sinjalit që do të marrim.

Procesi kuantizimi i amplitudës - procesi i zëvendësimit të vlerave reale të amplitudës së sinjalit me vlera të përafruara me njëfarë saktësie.

Kuantizimi– kampionimi sipas nivelit.

Supozohet se gabimet e kuantizimit që rezultojnë nga kuantizimi 16-bit mbeten pothuajse të pavërejshëm për dëgjuesin.

Secili nga 2 N nivelet e mundshme quhet niveli i kuantizimit, dhe distanca ndërmjet dy niveleve më të afërta të kuantizimit quhet hapi i kuantizimit.

Numri N quhet thellësia e bitit të kuantizimit, dhe numrat e përftuar si rezultat i rrumbullakimit të vlerave të amplitudës janë numëron ose mostrat(nga anglishtja "kampioni" - "i matur").

Gabimet e kuantizimit që rezultojnë nga kuantizimi 16-bit mbeten pothuajse të padukshëm për dëgjuesin.

Dixhitalizimi audio – përmbledhje:

Të mirat: ju mund të kodoni çdo tingull (përfshirë zërin, bilbilin, shushurimën, ...)

Disavantazhet: ka një humbje informacioni, një vëllim i madh skedarësh

Parametrat kryesorë që ndikojnë në cilësinë e zërit:

1. Thellësia bit- dimensioni (numri i biteve të informacionit të koduar/dekoduar nga ADC dhe DAC).

2. Frekuenca e marrjes së mostrave- Frekuenca e kampionimit të një sinjali të vazhdueshëm në kohë gjatë kampionimit të tij (ADC), e matur në Hertz.

3. Zhurma- Faza e padëshiruar dhe/ose devijimet e rastësishme të frekuencës së sinjalit të transmetuar

Formatet e skedarëve audio

WAV(Forma valore audio format), shpesh pa komprimim (madhësi!)

deputet3 (MPEG-1 Audio Shtresa 3 , ngjeshja duke marrë parasysh perceptimin e njeriut)

A.A.C. (Kodimi i avancuar i audios, 48 kanale, kompresim)

WMA (Windows Media Audio, transmetim audio, kompresim)

OGG (Ogg Vorbis, formati i hapur, kompresimi)

Heqja e miteve të njohura rreth audios dixhitale.

2017-10-01T15:27

Softueri i audiofilit

Shënim: Për një kuptim më të mirë të tekstit të mëposhtëm, ju rekomandoj të njiheni me bazat e audios dixhitale.

Gjithashtu, shumë nga pikat e ngritura më poshtë janë mbuluar në botimin tim "Edhe një herë për të vërtetën e trishtuar: nga vjen me të vërtetë tingulli i mirë?" .

Sa më i lartë të jetë shpejtësia e biteve, aq më e mirë është cilësia e pjesës.

Kjo nuk është gjithmonë rasti. Së pari, më lejoni t'ju kujtoj se çfarë është bitray T(bitrate, jo bitraid). Kjo është në fakt shpejtësia e të dhënave në kilobit për sekondë gjatë riprodhimit. Kjo do të thotë, nëse marrim madhësinë e një piste në kilobit dhe e ndajmë me kohëzgjatjen e tij në sekonda, marrim shpejtësinë e biteve të tij - të ashtuquajturat. Shpejtësia e biteve të bazuara në skedar (FBR), zakonisht nuk është shumë e ndryshme nga shpejtësia e transmetimit audio (arsyeja e dallimeve është prania e meta të dhënave në pista - etiketat, imazhet e ngulitura, etj.).

Tani le të marrim një shembull: shpejtësia e biteve të audios PCM të pakompresuar të regjistruar në një CD të rregullt Audio llogaritet si më poshtë: 2 (kanale) × 16 (bit për mostër) × 44100 (mostra për sekondë) = 1411200 (bps) = 1411,2 kbps. Tani le të marrim dhe kompresojmë gjurmën me çdo kodek pa humbje ("pa humbje" - "pa humbje", d.m.th. një që nuk çon në humbjen e asnjë informacioni), për shembull kodek FLAC. Si rezultat, ne do të marrim një shpejtësi më të ulët se ajo origjinale, por cilësia do të mbetet e pandryshuar - këtu është përgënjeshtrimi juaj i parë.

Këtu vlen të shtohet edhe një gjë. Shpejtësia e biteve të daljes me kompresim pa humbje mund të jetë shumë e ndryshme (por, si rregull, është më e vogël se ajo e audios së pakompresuar) - kjo varet nga kompleksiteti i sinjalit të kompresuar, ose më saktë nga teprica e të dhënave. Kështu, sinjalet më të thjeshta do të kompresohen më mirë (d.m.th., ne kemi një madhësi skedari më të vogël për të njëjtën kohëzgjatje => shpejtësi më të ulët të biteve), dhe ato më komplekse do të kompresohen më keq. Kjo është arsyeja pse muzika klasike pa humbje ka një shpejtësi më të ulët të biteve sesa, të themi, rock. Por duhet theksuar se shpejtësia e biteve këtu nuk është në asnjë mënyrë tregues i cilësisë së materialit audio.

Tani le të flasim për kompresimin me humbje. Para së gjithash, duhet të kuptoni se ka shumë kodues dhe formate të ndryshëm, dhe madje edhe brenda të njëjtit format, cilësia e kodimit të koduesve të ndryshëm mund të ndryshojë (për shembull, QuickTime AAC kodon shumë më mirë se FAAC i vjetëruar), për të mos përmendur epërsia e formateve moderne (OGG Vorbis, AAC, Opus) ndaj MP3. E thënë thjesht, nga dy këngë identike të koduara nga kodues të ndryshëm me të njëjtin shpejtësi bit, njëra do të tingëllojë më mirë dhe tjetra do të tingëllojë më keq.

Përveç kësaj, ekziston një gjë e tillë si zarf. Kjo do të thotë, ju mund të merrni një pjesë në formatin MP3 me një shpejtësi bit prej 96 kbps dhe ta konvertoni atë në MP3 320 kbps. Jo vetëm që cilësia nuk do të përmirësohet (në fund të fundit, të dhënat e humbura gjatë kodimit të mëparshëm 96 kbit/s nuk mund të kthehen), por edhe do të përkeqësohet. Vlen të theksohet këtu se në çdo fazë të kodimit me humbje (me çdo bit dhe çdo kodues), një sasi e caktuar shtrembërimi futet në audio.

Dhe akoma më shumë. Ekziston edhe një nuancë tjetër. Nëse, të themi, shpejtësia e biteve të një transmetimi audio është 320 kbps, kjo nuk do të thotë se të gjitha 320 kbps janë shpenzuar për kodimin e asaj sekonde. Kjo është tipike për kodimin me një shpejtësi bit konstante dhe për ato raste kur një person, duke shpresuar të marrë cilësinë maksimale, detyron shpejtësinë konstante të biteve të jetë shumë e lartë (për shembull, vendosja e 512 kbps CBR për Nero AAC). Siç dihet, numri i biteve të alokuara në një kornizë të caktuar rregullohet nga një model psikoakustik. Por në rastin kur shuma e alokuar është shumë më e ulët se shpejtësia e caktuar e biteve, edhe rezervuari i bitit nuk kursen (lexoni për termat në artikullin "Çfarë janë CBR, ABR, VBR?") - si rezultat, ne bëhemi të padobishëm "zero bit" që thjesht "përfundojnë" » madhësia e kornizës në madhësinë e kërkuar (d.m.th. rritni madhësinë e rrjedhës në atë të specifikuar). Nga rruga, kjo është e lehtë për t'u kontrolluar - kompresoni skedarin që rezulton me një arkivues (mundësisht 7z) dhe shikoni raportin e kompresimit - sa më i lartë të jetë, aq më shumë bit zero (pasi ato çojnë në tepricë), aq më shumë hapësirë e humbur.

Kodekët me humbje (MP3 dhe të tjerët) janë në gjendje të përballen me muzikën moderne elektronike, por nuk janë në gjendje të kodojnë me cilësi të lartë të muzikës klasike (akademike), live, instrumentale

"Ironia e fatit" këtu është se në fakt gjithçka është pikërisht e kundërta. Siç dihet, muzika akademike në shumicën dërrmuese të rasteve ndjek parime melodike dhe harmonike, si dhe kompozim instrumental. Nga pikëpamja matematikore, kjo rezulton në një kompozim harmonik relativisht të thjeshtë të muzikës. Kështu, mbizotërimi i bashkëtingëlloreve prodhon një numër më të vogël harmonike dytësore: për shembull, për një të pestën (një interval në të cilin frekuencat themelore të dy tingujve ndryshojnë me një herë e gjysmë), çdo harmoni e dytë do të jetë e përbashkët për të dy tingujt. , për një të katërt, ku frekuencat ndryshojnë me një të tretën - çdo të tretën, etj. Përveç kësaj, prania e raporteve të frekuencës fikse, për shkak të përdorimit të temperamentit të barabartë, thjeshton edhe përbërjen spektrale të muzikës klasike. Përbërja instrumentale e gjallë e klasikëve përcakton mungesën e zhurmës karakteristike të muzikës elektronike, shtrembërimin, kërcimet e mprehta në amplitudë, si dhe mungesën e një tepricë të përbërësve me frekuencë të lartë.

Faktorët e listuar më sipër çojnë në faktin se muzika klasike është shumë më e lehtë për t'u ngjeshur, para së gjithash, thjesht matematikisht. Nëse e mbani mend, ngjeshja matematikore funksionon duke eliminuar tepricën (duke përshkruar pjesë të ngjashme informacioni duke përdorur më pak pjesë) dhe gjithashtu duke bërë parashikime (aka. parashikuesit parashikoni sjelljen e sinjalit, dhe më pas kodohet vetëm devijimi i sinjalit real nga ai i parashikuar - sa më saktë të përputhen, aq më pak bit nevojiten për kodim). NË në këtë rast Përbërja dhe harmonia relativisht e thjeshtë spektrale çojnë në tepricë të lartë, eliminimi i të cilit siguron një shkallë të konsiderueshme kompresimi, dhe një numër i vogël i komponentëve të shpërthimeve dhe zhurmës (të cilët janë sinjale të rastësishme dhe të paparashikueshme) përcakton parashikueshmërinë e mirë matematikore të shumicës dërrmuese të informacionit. . Dhe nuk po flas as për vëllimin mesatar relativisht të ulët të këngëve klasike dhe intervalet e shpeshta të heshtjes, për të cilat praktikisht nuk kërkohet asnjë informacion për të koduar. Si rezultat, ne mund të kompresojmë pa humbje, për shembull, disa muzikë instrumentale solo në shpejtësi bit nën 320 kbps (koduesit TAK dhe OFR janë mjaft të aftë për këtë).

Pra, së pari, fakti është se kompresimi matematik që qëndron në themel të kodimit pa humbje është gjithashtu një nga fazat e kodimit me humbje (lexoni Kuptimi i kodimit MP3). Dhe së dyti, meqenëse humbja përdor transformimin Furier (zbërthimi i sinjalit në harmonikë), thjeshtësia e përbërjes spektrale madje e bën dyfish më të lehtë punën e koduesit. Si rezultat, duke krahasuar mostrat e muzikës klasike origjinale dhe të koduara në një test të verbër, ne jemi të befasuar kur zbulojmë se nuk mund të gjejmë ndonjë ndryshim, madje edhe në një shpejtësi relativisht të ulët të biteve. Dhe gjëja qesharake është se kur fillojmë të ulim plotësisht shpejtësinë e biteve të kodimit, gjëja e parë që zbulon dallimet është zhurma e sfondit në regjistrim.

Sa i përket muzikës elektronike, koduesit e kanë shumë të vështirë me të: komponentët e zhurmës kanë një tepricë minimale, dhe së bashku me kërcimet e mprehta (një lloj pulsi me sharrë) ato janë sinjale jashtëzakonisht të paparashikueshme (për koduesit që janë "të përshtatur" për tingujt natyralë që sillen krejtësisht ndryshe), transformimi Furier i drejtpërdrejtë dhe i anasjelltë me refuzimin e harmonikëve individuale nga modeli psikoakustik jep në mënyrë të pashmangshme efekte para dhe pas jehonës, dëgjueshmëria e të cilave nuk është gjithmonë e lehtë për t'u vlerësuar nga koduesi... Shtoni kësaj nivel i lartë i komponentëve HF - dhe ju merrni numër i madh mostra vrasëse, të cilat as koduesit më të avancuar nuk mund t'i përballojnë me shpejtësi mesatare-të ulët të biteve, në mënyrë të çuditshme, veçanërisht në mesin e muzikës elektronike.

Gjithashtu zbavitëse janë mendimet e "dëgjuesve me përvojë" dhe muzikantëve, të cilët, me mungesë të plotë të të kuptuarit të parimeve të kodimit me humbje, fillojnë të pretendojnë se dëgjojnë se si instrumentet në muzikë pas kodimit fillojnë të dalin jashtë sintonizimit, frekuencat notojnë. , etj. Kjo mund të jetë ende e vërtetë për kasetofonët paradiluvian me shpërthim, por në audio dixhitale gjithçka është e saktë: komponenti i frekuencës ose mbetet ose hidhet, thjesht nuk ka nevojë të zhvendoset tonaliteti. Për më tepër: prania e veshit të një personi për muzikë nuk do të thotë aspak se ai ka dëgjim të mirë me frekuencë (për shembull, aftësia për të perceptuar frekuenca >16 kHz, e cila zhduket me kalimin e moshës) dhe nuk e bën aspak më të lehtë për të kërkoni për objekte kodimi me humbje, që nga shtrembërimi Këto kanë një karakter shumë specifik dhe kërkojnë përvojën e krahasimit të verbër të audios me humbje - duhet të dini se çfarë dhe ku të shikoni.

DVD-Audio tingëllon më mirë se Audio CD (24 bit kundrejt 16, 96 kHz kundrejt 44.1, etj.)

Fatkeqësisht, njerëzit zakonisht shikojnë vetëm numrat dhe shumë rrallë mendojnë për ndikimin e një parametri të caktuar në cilësinë objektive.

Le të shqyrtojmë së pari thellësinë e bitit. Ky parametër nuk është përgjegjës për asgjë më shumë se diapazonin dinamik, d.m.th., ndryshimin midis tingujve më të qetë dhe më të zhurmshëm (në dB). Në audio dixhitale, niveli maksimal është 0 dBFS (FS - shkalla e plotë), dhe minimumi është i kufizuar nga niveli i zhurmës, d.m.th., në fakt, diapazoni dinamik në vlerë absolute është i barabartë me nivelin e zhurmës. Për audio 16-bit, diapazoni dinamik llogaritet si 20 × log 10 2 16, që është e barabartë me 96,33 vB. Në të njëjtën kohë, diapazoni dinamik i një orkestre simfonike është deri në 75 dB (kryesisht rreth 40-50 dB).

Tani le të imagjinojmë kushtet reale. Niveli i zhurmës në dhomë është rreth 40 dB (mos harroni se dB është një vlerë relative. Në këtë rast, pragu i dëgjueshmërisë merret si 0 dB), vëllimi maksimal i muzikës arrin 110 dB (për të shmangur shqetësimin) - ne merrni një diferencë prej 70 dB. Kështu, rezulton se një gamë dinamike prej më shumë se 70 dB në këtë rast është thjesht e padobishme. Kjo është, me një gamë mbi ose tinguj me zë të lartë do të arrijë një prag dhimbjeje, ose tinguj të qetë do të përthithet nga zhurma përreth. Është shumë e vështirë të arrihet një nivel i zhurmës së ambientit më pak se 15 dB (pasi volumi i frymëmarrjes së njeriut dhe zhurmave të tjera të shkaktuara nga fiziologjia njerëzore është në këtë nivel), si rezultat, rezulton një gamë prej 95 dB për të dëgjuar muzikë. të jetë plotësisht e mjaftueshme.

Tani në lidhje me frekuencën e kampionimit (frekuenca e marrjes së mostrave, shpejtësia e mostrës). Ky parametër kontrollon frekuencën e kampionimit të kohës dhe ndikon drejtpërdrejt në frekuencën maksimale të sinjalit që mund të përshkruhet nga një paraqitje e caktuar audio. Sipas teoremës së Kotelnikov, është e barabartë me gjysmën e frekuencës së marrjes së mostrave. Kjo do të thotë, për frekuencën e zakonshme të kampionimit prej 44100 Hz, frekuenca maksimale e përbërësve të sinjalit është 22050 Hz. Frekuenca maksimale. e cila perceptohet nga veshi i njeriut është pak mbi 20,000 Hz (dhe më pas në lindje; ndërsa rritemi, pragu bie në 16,000 Hz).

Më e mira këtë temë mbulohet në artikullin 24/192 shkarkime - pse nuk kanë kuptim.

Lojtarët e ndryshëm të softuerit tingëllojnë ndryshe (p.sh. foobar2000 është më i mirë se Winamp, etj.)

Për të kuptuar pse nuk është kështu, duhet të kuptoni se çfarë është një luajtës softuerësh. Në thelb ky është një dekoder, mbajtës (opsionale), një shtojcë dalëse (në një nga ndërfaqet: ASIO, DirectSound, WASAPI. etj.), dhe sigurisht GUI ( GUI përdorues). Meqenëse dekoderi në 99.9% të rasteve funksionon sipas një algoritmi standard, dhe plug-in-i i daljes është vetëm një pjesë e programit që transmeton transmetimin në kartën e zërit përmes njërës prej ndërfaqeve, arsyeja e vetme për dallimet mund të jetë trajtuesit. Por fakti është se mbajtësit zakonisht çaktivizohen si parazgjedhje (ose duhet të çaktivizohen, pasi gjëja kryesore për lojtar i mirë- të jetë në gjendje të përcjellë tingullin në formën e tij "të pacenuar"). Si rezultat, subjekti i vetëm i krahasimit këtu mund të jetë mundësitë përpunimi dhe prodhimi, të cilat, meqë ra fjala, shumë shpesh nuk janë fare të nevojshme. Por edhe nëse ka një nevojë të tillë, atëherë ky është një krahasim i përpunuesve, dhe jo i lojtarëve.

Versionet e ndryshme të shoferit tingëllojnë ndryshe

Kjo deklaratë bazohet në injorancën banale të parimeve të funksionimit të një karte zanore. Shoferi është software, e nevojshme për ndërveprim efektiv të pajisjes me sistemi operativ, i cili gjithashtu ofron zakonisht një ndërfaqe grafike të përdoruesit për t'ju lejuar të menaxhoni pajisjen, cilësimet e saj, etj. Drejtuesi i kartës së zërit siguron që karta e zërit të njihet si një kartë zanore pajisjet Windows, informon OS për formatet e mbështetura nga karta, siguron transmetimin e një rryme PCM të pakompresuar (në shumicën e rasteve) në kartë dhe gjithashtu jep akses në cilësimet. Përveç kësaj, nëse ka përpunim softuerësh (duke përdorur CPU), drejtuesi mund të përmbajë DSP (përpunues) të ndryshëm. Prandaj, së pari, me efektet dhe përpunimin të çaktivizuar, nëse drejtuesi nuk siguron transmetim të saktë PCM në kartë, ky konsiderohet një gabim i madh, një gabim kritik. Dhe kjo ndodh jashtëzakonisht e rrallë. Nga ana tjetër, ndryshimet midis drejtuesve mund të jenë në përditësimin e algoritmeve të përpunimit (resamplers, efekte), megjithëse kjo gjithashtu nuk ndodh shpesh. Për më tepër, për të arritur cilësi më të lartë efektet dhe çdo përpunim drejtues duhet të përjashtohet ende.

Kështu, përditësimet e drejtuesve fokusohen kryesisht në përmirësimin e stabilitetit dhe eliminimin e gabimeve të përpunimit. As njëra dhe as tjetra në rastin tonë nuk ndikon në cilësinë e riprodhimit, prandaj në 999 raste nga 1000 shoferi nuk ka asnjë efekt në zë.

CD-të audio të licencuara tingëllojnë më mirë se kopjet e tyre

Nëse gjatë kopjimit nuk ka pasur gabime (fatale) leximi/shkrimi dhe makinë optike pajisja në të cilën do të luhet disku i kopjimit, nuk ka probleme me leximin e tij, atëherë një deklaratë e tillë është e gabuar dhe lehtësisht e hedhur poshtë.

Modaliteti i kodimit stereo jep cilësi më të mirë se Joint Stereo

Ky keqkuptim ka të bëjë kryesisht me LAME MP3, pasi të gjithë koduesit modernë (AAC, Vorbis, Musepack) përdorin vetëm Modaliteti i përbashkët Stereo (dhe kjo tashmë thotë diçka)

Për të filluar, vlen të përmendet se mënyra Joint Stereo përdoret me sukses me kompresim pa humbje. Thelbi i tij qëndron në faktin se para kodimit, sinjali zbërthehet në shumën e kanaleve të djathta dhe të majta (Mid) dhe ndryshimin e tyre (Anë), dhe më pas ndodh kodimi i veçantë i këtyre sinjaleve. Në kufi (për të njëjtin informacion në kanalin e djathtë dhe të majtë), fitohen kursime të dyfishta të të dhënave. Dhe meqenëse në shumicën e muzikës informacioni në kanalet e djathta dhe të majta është mjaft i ngjashëm, kjo metodë rezulton të jetë shumë efektive dhe ju lejon të rritni ndjeshëm raportin e kompresimit.

Në humbje parimi është i njëjtë. Por këtu, në modalitetin e shpejtësisë së biteve konstante, cilësia e fragmenteve me informacion të ngjashëm në dy kanale do të rritet (në kufi, dyfish), dhe për modalitetin VBR në vende të tilla shpejtësia e biteve thjesht do të ulet (mos harroni se detyra kryesore i modalitetit VBR është ruajtja e qëndrueshme e cilësisë së kodimit të specifikuar, duke përdorur shpejtësinë më të ulët të mundshme të biteve). Meqenëse gjatë kodimit me humbje, prioritet (kur shpërndahen bit) i jepet shumës së kanaleve, për të shmangur përkeqësimin e panoramës stereo, kalimin dinamik midis stereos së përbashkët (mes/anës) dhe stereos së rregullt (majtas/djathtas) me kornizë përdoren mënyrat. Nga rruga, arsyeja e këtij keqkuptimi ishte papërsosmëria e algoritmit të ndërrimit në versionet më të vjetra të LAME, si dhe prania e modalitetit Forced Joint, në të cilin nuk ka ndërrim automatik. NË versionet e fundit Modaliteti LAME Joint është aktivizuar si parazgjedhje dhe nuk rekomandohet ta ndryshoni atë.

Sa më i gjerë të jetë spektri, aq më i mirë është cilësia e regjistrimit (rreth spektrogrameve, auCDtect dhe diapazonit të frekuencës)

Në ditët e sotme, në forume, për fat të keq, është shumë e zakonshme të matet cilësia e një piste "me një vizore duke përdorur një spektrogram". Natyrisht, për shkak të thjeshtësisë së kësaj metode. Por, siç tregon praktika, në realitet gjithçka është shumë më e ndërlikuar.

Dhe këtu është gjëja. Spektrogrami tregon vizualisht shpërndarjen e fuqisë së sinjalit mbi frekuencat, por nuk mund të japë një pamje të plotë të zërit të regjistrimit, praninë e shtrembërimeve dhe objekteve të kompresimit në të. Kjo do të thotë, në thelb gjithçka që mund të përcaktohet nga spektrogrami është diapazoni i frekuencës(dhe pjesërisht - dendësia e spektrit në rajonin HF). Kjo do të thotë, në rastin më të mirë, duke analizuar spektrogramin, mund të identifikohet një upconvert. Krahasimi i spektrogrameve të gjurmëve të marra nga kodimi me kodues të ndryshëm me origjinalin është absurditet i plotë. Po, ju mund të identifikoni dallimet në spektër, por përcaktimi nëse (dhe në çfarë mase) ato do të perceptohen nga veshi i njeriut është pothuajse e pamundur. Nuk duhet të harrojmë se detyra e kodimit me humbje është të sigurojë një rezultat të padallueshëm veshi i njeriut nga origjinali (jo me sy).

E njëjta gjë vlen edhe për vlerësimin e cilësisë së kodimit duke analizuar gjurmët e daljes me programin auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - këto janë vetëm predha për programin e veçantë të konsolës auCDtect). Algoritmi auCDtect gjithashtu analizon diapazonin e frekuencës dhe ju lejon vetëm të përcaktoni (me një shkallë të caktuar probabiliteti) nëse kompresimi MPEG është aplikuar në ndonjë nga fazat e kodimit. Algoritmi është përshtatur për MP3, kështu që është e lehtë ta "mashtrosh" atë me ndihmën e kodekëve Vorbis, AAC dhe Musepack, kështu që edhe nëse programi shkruan "100% CDDA", kjo nuk do të thotë që audioja e koduar është 100%. identike me origjinalin.

Dhe duke u kthyer direkt në spektra. Ekziston gjithashtu një dëshirë e popullarizuar në mesin e disa "entuziastëve" për të çaktivizuar me çdo kusht filtrin e kalimit të ulët në koduesin LAME. Këtu ka një mungesë të qartë të të kuptuarit të parimeve të kodimit dhe psikoakustikës. Së pari, koduesi shkurton frekuencat e larta vetëm për një qëllim - për të ruajtur të dhënat dhe për t'i përdorur ato për të koduar diapazonin më të dëgjueshëm të frekuencës. Gama e zgjeruar e frekuencës mund të ketë një ndikim fatal në cilësinë e përgjithshme të zërit dhe të çojë në artefakte të kodimit të dëgjueshëm. Për më tepër, fikja e ndërprerjes në 20 kHz është përgjithësisht plotësisht e pajustifikuar, pasi një person thjesht nuk mund të dëgjojë frekuenca më të larta.

Ekziston një paracaktim i caktuar i barazimit "magjik" që mund të përmirësojë ndjeshëm tingullin

Kjo nuk është plotësisht e vërtetë, së pari, sepse çdo konfigurim individual (kufje, akustikë, kartë zëri) ka parametrat e veta (në veçanti, karakteristikën e saj amplitudë-frekuencë). Prandaj, çdo konfigurim duhet të ketë qasjen e vet unike. E thënë thjesht, një paracaktim i tillë barazues ekziston, por ai ndryshon për konfigurime të ndryshme. Thelbi i tij qëndron në rregullimin e përgjigjes së frekuencës së shtegut, domethënë në "nivelimin" e uljeve dhe rritjeve të padëshiruara.

Gjithashtu, në mesin e njerëzve që janë larg punës së drejtpërdrejtë me tingullin, vendosja e një barazuesi grafik me një "shënues" është shumë popullor, i cili në fakt përfaqëson një rritje të nivelit të komponentëve me frekuencë të ulët dhe me frekuencë të lartë, por në të njëjtën kohë çon te mbytja e vokaleve dhe instrumenteve, spektri i zërit të të cilave është në rajonin e frekuencës së mesme.

Përpara se ta konvertoni muzikën në një format tjetër, duhet ta dekompresoni atë në WAV

Më lejoni të vërej menjëherë se WAV do të thotë të dhëna PCM (modulim i kodit të pulsit) në kontejnerin WAVE (skedar me shtrirje *.wav). Këto të dhëna nuk janë gjë tjetër veçse një sekuencë bitësh (zero dhe njësh) në grupe prej 16, 24 ose 32 (në varësi të thellësisë së bitit), secila prej të cilave përfaqëson kodin binar për amplituda e mostrës përkatëse (për shembull, për 16 bit në shënimin dhjetor, këto janë vlera nga -32768 në +32768).

Pra, fakti është se çdo procesor i zërit - qoftë filtër apo kodues - zakonisht funksionon vetëm me këto vlera, pra vetëm me të dhëna të pakompresuara. Kjo do të thotë që për të kthyer audio nga, të themi, FLAC në APE, ju thjesht e nevojshme Së pari deshifroni FLAC në PCM dhe më pas kodoni PCM në APE. Është si ripaketimi i skedarëve nga ZIP në RAR, së pari duhet të shpaketoni ZIP.

Megjithatë, nëse përdorni një konvertues ose thjesht një kodues të avancuar të tastierës, konvertimi i ndërmjetëm në PCM ndodh menjëherë, ndonjëherë edhe pa shkruar në një skedar të përkohshëm WAV. Kjo është ajo që i mashtron njerëzit: duket se formatet konvertohen drejtpërdrejt nga njëri në tjetrin, por në fakt një program i tillë duhet të ketë një dekoder të formatit të hyrjes që kryen konvertimin e ndërmjetëm në PCM.

Kështu, konvertimi manual në WAV nuk do t'ju japë absolutisht asgjë përveç humbjes së kohës.

Çfarë do të përcaktojë cilësinë e zërit të dixhitalizuar?

Për cilësinë e zërit dixhital, dy gjëra janë thelbësore: cilësia e kolonës zanore origjinale dhe cilësia e konvertuesit analog në dixhital.

Për sa i përket cilësisë së kolonës zanore origjinale, gjithçka është afërsisht e qartë. Nëse është i lakuar (me shtrembërime) ose i zhurmshëm, atëherë asnjë sasi dixhitalizimi nuk do ta përmirësojë atë. Epo, domethënë, është e mundur, përmes përpunimit të ndryshëm, përfshirë ato dixhitale, të izolohet një sinjal i dobishëm, i cili përdoret kur izoloni fjalimin në sfondin e zhurmës së jashtme ose kur izoloni një sinjal të rregullt në sfondin e zhurmës së rastësishme (të gjithë kanë shikuar filma rreth rrotullimeve, apo jo?), por nëse po flasim për një fonogram muzikor, domethënë një fonogram me një spektër të gjerë, atëherë të gjitha llojet e mashtrimeve nuk do të ndihmojnë.

Pra, do të supozojmë se fonogrami është i cilësisë së lartë.

Pastaj gjithçka që mbetet është ADC.

Treguesi kryesor këtu është thellësia e bitit të kodimit. Është e qartë se sa më i madh të jetë, aq më mirë, por nga ana tjetër, aq më kompleks dhe më i shtrenjtë është një konvertues i tillë. Në agimin e teknologjisë dixhitale (që nuk ishte shumë kohë më parë...), një rekord përfundimtar 16-bit u njoh si optimal për sa i përket raportit çmim/cilësi. Me një thellësi bit më të ulët, diapazoni dinamik i një kopjeje dixhitale të një fonogrami vuan - tingujt e nivelit të ulët (pianissimo) përbëjnë vetëm një pjesë të vogël të të gjithë biteve, që do të thotë se natyra hap pas hapi e ndryshimit të sinjalit bëhet e dukshme. Dhe filtrimi me kalim të ulët nuk do të ndihmojë shumë këtu (përmendjet e teoremës së Kotelnikov janë të mirëseardhura, por nuk duhet të harrojmë se supozon në heshtje perfekte konvertimi analog në dixhital, domethënë me një thellësi bit pafundësisht të madhe). Meqenëse çdo përpunim, qoftë edhe në formë dixhitale, mund të zvogëlojë vetëm thellësinë e bitit efektiv, dixhitalizimi në studio u krye dhe vazhdon të kryhet edhe sot e kësaj dite me një numër më të madh të biteve.

Në ditët e sotme nuk është më e pazakontë që fonogramet dixhitale të përgatiten me një thellësi prej 24 bitësh (super-Audio CD, Audio-DVD). Me një thellësi kaq të vogël, do të jetë e mundur të përçohet plotësisht diapazoni dinamik i çdo vepre muzikore, madje edhe Bolero i Ravelit, i cili fillon me një pjesë mezi të dëgjueshme të daulleve dhe përfundon fortissimo me të gjithë orkestrën.

Ja ku shkoni. Përveç thellësisë së bitit, parametra të tjerë ADC janë gjithashtu të rëndësishëm, kryesisht jolineariteti dhe zhurma. Sidomos zhurmat. Sepse ato kufizojnë kapacitetin efektiv të bitit të konvertuesit. Çfarë kuptimi kanë këto 24 bit nëse 8 prej tyre janë të zhurmshëm dhe për këtë arsye nuk mbajnë asnjë informacione të dobishme... Niveli i zhurmës së ADC-ve moderne 24-bit mund të arrijë -115 dB me shpejtësi kampionimi mbi 100 kHz, kjo tashmë është mjaft e mirë, dhe jolineariteti diferencial matet në dhjetëmijëtat e përqindjes. Kjo do të thotë, zgjidhje të tilla tejkalojnë lehtësisht aftësitë e veshit të njeriut.

Do të varet nga tre parametra kryesorë:
1. Shkalla e kampionimit. Kufizon gjerësinë e brezit të frekuencave të transmetuara: frekuenca maksimale e sinjalit të transmetuar është nën gjysmën e frekuencës së kampionimit. Në telefoni, më së shpeshti përdoret një frekuencë kampionimi prej 8 kHz, e cila jep një brez teorik pak më të ngushtë se 4 kHz (në praktikë, përdoret një brez prej 300-3000 Hz). Dhe standardi CD përdor një frekuencë prej 44.1 kHz, e cila bën të mundur transmetimin e plotë të spektrit 20 Hz - 20 kHz. Rritja e shkallës së kampionimit mbi këto vlera nuk ka kuptim për sa i përket gamës së frekuencave të transmetuara, por zvogëlon nivelin e shtrembërimit të ndërmodulimit. Në standardin DVD Audio, frekuenca maksimale e marrjes së mostrave është 192 kHz, disa karta audio të mira për kompjuterë gjithashtu mbështesin këtë frekuencë kampionimi (gjerësia e brezit të riprodhimit dhe frekuencave të regjistrimit ndryshon nga modeli në model). Vlerat e tjera standarde janë 96, 48, 32, 22.05, 11.025 kHz.
2. Thellësia e bitit të kodimit. Gama dinamike varet nga ajo - me kodimin linear, ndryshimi midis lëvizjes së plotë dhe hapit minimal është 256 herë për 8 bit, dhe 65536 herë për 16 bit, që është përkatësisht 48 dhe 96 dB. 48 dB është sinqerisht i ulët, ky është niveli i diapazonit dinamik të një kasete kompakte, dhe përveç kësaj, përveç diapazonit të ngushtë dinamik, lindin shtrembërime të pakëndshme, veçanërisht të dëgjueshme qartë në vende të qeta - pasojë e transformimit të një sinjali të qetë në një shkallë. Në 16-bit, cilësia e zërit është tashmë mjaft e mirë (kjo është thellësia e bitit që përdor një CD), por jo ideale në shumë raste reale - shumë vepra klasike, si dhe muzika e rëndë, kërkojnë një DD më të madhe. Sistemet me cilësi të lartë përdorin kodim 24-bit, megjithëse numri aktual i biteve të rëndësishëm nuk i kalon 18-20. Nuk ka kuptim të rritet më tej thellësia e bitit.
3. Metoda e kodimit. Ka dy anë për këtë. E para është vetë shkalla e kampionimit. Zakonisht është linear, por mund të jetë edhe logaritmik. Kjo jep një rritje të diapazonit dinamik me të njëjtën thellësi biti, por niveli i shtrembërimit është më i lartë se me të njëjtin interval dinamik me një shkallë lineare dhe thellësi më të madhe të bitit. E dyta është përdorimi i algoritmeve të ndryshme të kompresimit me humbje. Në lidhje me këtë të fundit, shfaqet koncepti i shpejtësisë së biteve. Ky i fundit është numri i biteve që nevojiten për të koduar një sekondë audio. Natyrisht, shpejtësia e biteve varet nga frekuenca e kampionimit dhe thellësia e bitit, por edhe nga raporti i kompresimit. Kompresimi mund të jetë me humbje ose pa humbje. Kompresimi pa humbje është në thelb një arkivim i zakonshëm dhe nuk ndikon në tingullin. Dhe me humbje, prandaj janë humbje. Koduesi analizon informacionin audio dhe i hedh poshtë të dhënat, i udhëhequr nga konsideratat psikoakustike: humbja e asaj që do të jetë më pak e dëgjueshme. Kjo do të thotë, një tingull i dobët në sfondin e një tingulli të fortë, tinguj të dobët me frekuencë të lartë në sfondin e tingujve të fortë me frekuencë të mesme, etj. Në të mesme dhe frekuencave të larta informacioni i fazës mund të hidhet poshtë. Si rezultat, kur një regjistrim kompresohet me cilësi CD me 4,5 herë (bitrat 320 kbps, mp3/Lame), përkeqësimi i dëgjueshëm i regjistrimit është aq i parëndësishëm sa pa pajisje të mira është shumë e vështirë të dallosh ndryshimin. Dhe me një shpejtësi bit prej 128, përkeqësimi i cilësisë së zërit është tashmë i dukshëm dhe shumë regjistrime tingëllojnë thjesht të pakëndshme. Por me altoparlantët plastike ose altoparlantët e integruar në laptop, nuk do ta dëgjoni këtë ndryshim.