Co určuje kvalitu digitálního zvuku? Jaké parametry určují kvalitu digitálního zvuku?

Domov / Záchrana dat

Zvuk je vlna šířící se nejčastěji vzduchem, vodou nebo jiným prostředím s plynule se měnící intenzitou a frekvencí.

Zvukové vlny (vibrace vzduchu) může člověk vnímat pomocí sluchu ve formě zvuku, přičemž rozlišuje hlasitost a tón.

Čím více intenzita zvuková vlna, čím hlasitější je zvuk, čím vyšší je frekvence vlny, tím vyšší je výška zvuku.


Závislost hlasitosti, stejně jako výšky zvuku, na intenzitě a frekvenci zvukové vlny

Hertz(označeno Hz nebo Hz) - jednotka měření frekvence periodických procesů (například oscilací). 1 Hz znamená jedno provedení takového procesu za jednu sekundu: 1 Hz = 1/s.

Pokud máme 10 Hz, znamená to, že máme deset provedení takového procesu za jednu sekundu.

Lidské ucho dokáže vnímat zvuk o frekvencích od 20 vibrací za sekundu (20 Hz, nízký zvuk) do 20 000 vibrací za sekundu (20 kHz, vysoký zvuk).

Kromě toho může člověk vnímat zvuk v širokém rozsahu intenzit, kdy maximální intenzita je 1014krát větší než minimální (stotisíc miliardkrát).

Pro měření hlasitosti zvuku byla vynalezena a použita speciální jednotka " decibel" (dB)

Snížení nebo zvýšení hlasitosti zvuku o 10 dB odpovídá snížení nebo zvýšení intenzity zvuku 10krát.

Hlasitost zvuku v decibelech


Aby počítačové systémy mohly zpracovávat zvuk, musí být nepřetržitý zvukový signál převeden do digitální, diskrétní formy pomocí časového vzorkování.

K tomu je souvislá zvuková vlna rozdělena na samostatné malé dočasné úseky a pro každý takový úsek je nastavena určitá hodnota intenzity zvuku.

Plynulá závislost hlasitosti zvuku na čase A(t) je tedy nahrazena diskrétní sekvencí úrovní hlasitosti. Na grafu to vypadá jako nahrazení hladké křivky sekvencí „kroků“.


Časové vzorkování zvuku


Mikrofon připojený ke zvukové kartě se používá k záznamu analogového zvuku a jeho převodu do digitální podoby.

Čím hustší jsou jednotlivé pruhy na grafu, tím lepší kvalitu nakonec budete moci znovu vytvořit původní zvuk.

Kvalita výsledného digitálního zvuku závisí na počtu měření úrovně hlasitosti zvuku za jednotku času, tedy vzorkovací frekvenci.

Vzorkovací frekvence zvuku je počet měření hlasitosti zvuku za jednu sekundu.

Čím více měření je provedeno za jednu sekundu (čím vyšší je vzorkovací frekvence), tím přesněji „žebřík“ digitálního audio signálu sleduje křivku analogového signálu.

Každému „kroku“ v grafu je přiřazena specifická hodnota hlasitosti zvuku. Úrovně hlasitosti zvuku lze považovat za soubor možných stavů N(gradace), pro kódování je vyžadováno určité množství informací , která se nazývá hloubka kódování zvuku.

Hloubka kódování zvuku je množství informací potřebných ke kódování jednotlivých úrovní hlasitosti digitálního zvuku.

Pokud je známa hloubka kódování, lze počet úrovní hlasitosti digitálního zvuku vypočítat pomocí obecného vzorce N=2I.

Nechte například hloubku kódování zvuku 16 bitů, v takovém případě se počet úrovní hlasitosti zvuku rovná:

N = 2 I = 216 = 65,536.

Během procesu kódování je každé úrovni hlasitosti přiřazen vlastní 16bitový binární kód, nejnižší úroveň zvuku bude odpovídat kódu 0000000000000000 a nejvyšší - 1111111111111111.

Digitalizovaná kvalita zvuku


Čím vyšší je tedy vzorkovací frekvence a hloubka kódování zvuku, tím kvalitnější bude digitalizovaný zvuk a tím lépe můžete přiblížit digitalizovaný zvuk původnímu zvuku.

Nejnižší kvalitu digitalizovaného zvuku, odpovídající kvalitě telefonní komunikace, získáme se vzorkovací frekvencí 8000krát za sekundu, hloubkou vzorkování 8 bitů a záznamem jedné zvukové stopy (mono režim).

Nejvyšší kvality digitalizovaného zvuku, odpovídající kvalitě audio CD, je dosaženo vzorkovací frekvencí 48 000krát za sekundu, hloubkou vzorkování 16 bitů a záznamem dvou zvukových stop (režim stereo).

To je třeba mít na paměti čím vyšší je kvalita digitálního zvuku, tím větší je informační objem zvukového souboru.

Můžete snadno odhadnout informační objem digitálního stereo audio souboru s délkou zvuku 1 sekundu s průměrnou kvalitou zvuku (16 bitů, 24 000 měření za sekundu). K tomu je třeba hloubku kódování vynásobit počtem měření za sekundu a vynásobit 2 kanály (stereo zvuk):

16 bitů × 24 000 × 2 = 768 000 bitů = 96 000 bajtů = 93,75 kB.

Zvukové editory


Zvukové editory umožňují zvuk nejen nahrávat a přehrávat, ale také jej upravovat. Nejvýraznější lze bezpečně nazvat, jako např Sony Sound Forge, Adobe Audition, GoldWave a další.

Digitalizovaný zvuk je ve zvukových editorech prezentován v přehledné vizuální podobě, takže kopírování, přesouvání a mazání částí zvukové stopy lze snadno provádět pomocí počítačové myši.

Navíc se můžete překrývat, překrývat zvukové stopy na sebe (mixovat zvuky) a aplikovat různé akustické efekty (echo, přehrávání pozpátku atd.).

Zvukové editory umožňují změnit kvalitu digitálního zvuku a velikost výsledného zvukového souboru změnou vzorkovací frekvence a hloubky kódování. Digitalizovaný zvuk lze uložit nekomprimovaný do zvukových souborů v univerzálním formátu WAV (formát Microsoft) nebo v komprimovaných formátech OGG, MP3 (ztrátová komprese).
K dispozici jsou také méně běžné, ale pozoruhodné formáty bezztrátové komprese.

Při ukládání zvuku v komprimovaných formátech jsou vyřazeny zvukové frekvence s nízkou intenzitou, které jsou pro lidské vnímání neslyšitelné a nepostřehnutelné („nadměrné“), které se časově shodují s frekvencemi zvuku s vysokou intenzitou. Použití tohoto formátu umožňuje kompresi zvukové soubory desítkykrát, ale vede k nevratné ztrátě informací (soubory nelze obnovit v původní, původní podobě).

Hlavní parametry ovlivňující kvalitu digitálního zvukového záznamu jsou:

§ Bitová kapacita ADC a DAC.

§ Vzorkovací frekvence ADC a DAC.

§ Jitter ADC a DAC

§ Oversampling

Důležité jsou také parametry analogové cesty zařízení pro digitální záznam a reprodukci zvuku:

§ Odstup signálu od šumu

§ Faktor harmonického zkreslení

§ Intermodulační zkreslení

§ Nerovnoměrné amplitudově-frekvenční charakteristiky

§ Vzájemné pronikání kanálů

§ Dynamický rozsah

Technologie digitálního záznamu zvuku

Digitální záznam zvuku se v současné době provádí v nahrávacích studiích, které spravuje osobní počítače a další drahé a kvalitní vybavení. Poměrně široce rozvinutý je také koncept „domácího studia“, ve kterém se používá profesionální a poloprofesionální nahrávací zařízení, které umožňuje vytvářet vysoce kvalitní nahrávky doma.

Zvukové karty se používají jako součást počítačů, které provádějí zpracování ve svých ADC a DAC - nejčastěji ve 24 bitech a 96 kHz další zvýšení bitové hloubky a vzorkovací frekvence prakticky nezvyšuje kvalitu záznamu;

Existuje celá třída počítačových programů - zvukových editorů, které vám umožňují pracovat se zvukem:

§ nahrávat příchozí audio stream

§ vytvářet (generovat) zvuk

§ změnit existující nahrávku (přidat vzorky, změnit zabarvení, rychlost zvuku, vystřihnout části atd.)

§ přepis z jednoho formátu do druhého

§ převést převést různé zvukové kodeky

Nějaký jednoduché programy, umožňují pouze konverzi formátů a kodeků.

Typy digitálních audio formátů

Existují různé koncepty zvukového formátu.

Formát pro reprezentaci zvukových dat v digitální formě závisí na metodě kvantování používané digitálně-analogovým převodníkem (DAC). V audiotechnice jsou v současnosti nejběžnější dva typy kvantizace:

§ pulzní kódová modulace

§ sigma-delta modulace

Kvantovací bitová hloubka a vzorkovací frekvence jsou často indikovány pro různá zařízení pro záznam a přehrávání zvuku jako formát digitální prezentace zvuku (24 bit/192 kHz; 16 bit/48 kHz).

Formát souboru určuje strukturu a funkce prezentace zvukových dat uložených na paměťovém zařízení PC. K odstranění redundance ve zvukových datech se ke kompresi zvukových dat používají zvukové kodeky. Existují tři skupiny formátů zvukových souborů:

§ Nekomprimované audio formáty jako WAV, AIFF

§ audio formáty s bezeztrátovou kompresí (APE, FLAC)

§ audio formáty využívající ztrátovou kompresi (mp3, ogg)

Modulární formáty hudebních souborů vynikají. Vytvořené synteticky nebo ze samplů předem nahraných živých nástrojů slouží především k tvorbě moderní elektronické hudby (MOD). Patří sem i formát MIDI, který není zvukovým záznamem, ale zároveň pomocí sekvenceru umožňuje nahrávat a přehrávat hudbu pomocí specifické sady příkazů v textové podobě.

Formáty digitálních zvukových médií se používají jak pro hromadnou distribuci zvukových záznamů (CD, SACD), tak pro profesionální záznam zvuku (DAT, minidisk).

U systémů prostorového zvuku je také možné rozlišit zvukové formáty, což jsou především vícekanálové zvukové doprovody k filmům. Takové systémy mají celé rodiny formátů od dvou velkých konkurenčních společností Digital Theater Systems Inc. - DTS a Dolby Laboratories Inc. - Dolby Digital.

Formát je také počet kanálů ve vícekanálových zvukových systémech (5.1; 7.1). Zpočátku byl takový systém vyvinut pro kina, ale následně byl rozšířen softwarový kodek

Zvukový kodek na úrovni programu

§ G.723.1 - jeden ze základních kodeků pro aplikace IP telefonie

§ G.729 je proprietární úzkopásmový kodek, který se používá pro digitální reprezentaci řeči

§ Internet Low Bitrate Codec (iLBC) – oblíbený bezplatný kodek pro IP telefonii (zejména pro Skype a Google Talk)

Zvukový kodek(Angličtina) Zvukový kodek; audio kodér/dekodér) - počítačový program popř železářské zboží, určený ke kódování nebo dekódování zvukových dat.

Softwarový kodek

Zvukový kodek na úrovni programu je specializovaná počítačový program, kodek, který komprimuje (komprimuje) nebo dekomprimuje (dekomprimuje) digitální zvuková data podle zvukového formátu souboru nebo formátu streamovaného zvuku. Úkolem audio kodeku jako kompresoru je poskytnout audio signál se specifikovanou kvalitou/přesností a co nejmenší velikostí. Komprese snižuje množství prostoru potřebného pro uložení zvukových dat a může také snížit šířku pásma kanálu, přes který jsou zvuková data přenášena. Většina audio kodeků je implementována jako softwarové knihovny, které spolupracují s jedním nebo více audio přehrávači, jako je QuickTime Player, XMMS, Winamp, VLC media player, MPlayer nebo Windows Media Player.

Populární softwarové zvukové kodeky podle aplikace:

§ MPEG-1 Layer III (MP3) – proprietární kodek pro zvukové nahrávky (hudba, audioknihy atd.) pro počítačové vybavení a digitální přehrávače

§ Ogg Vorbis (OGG) - druhý nejoblíbenější formát, široce používaný v počítačové hry a v sítích pro sdílení souborů pro přenos hudby

§ GSM-FR - první digitální standard kódování řeči používané v GSM telefonech

§ Adaptive multi rate (AMR) – záznam lidského hlasu mobilní telefony a další mobilní zařízení

Zvuk– vlna s plynule se měnící amplitudou a frekvencí. Čím větší je amplituda, tím je pro člověka hlasitější, čím větší je frekvence, tím vyšší je tón.

Digitální zvuk je analogový zvukový signál reprezentovaný diskrétními číselnými hodnotami jeho amplitudy.

V jádru kódování zvuku Použití počítačů je proces přeměny vzduchových vibrací na vibrace elektrického proudu a následné vzorkování analogového elektrického signálu.

Kódování a reprodukce zvukových informací se provádí pomocí speciální programy(redakce nahrávky).

Kvalita reprodukce kódovaného zvuku závisí na vzorkovací frekvenci a jejím rozlišení.

Digitalizace zvuku - (nebo analog-to-digital conversion) - technologie pro konverzi analogu zvukový signál v digitální podobě, která se provádí měřením amplitudy signálu s určitým časovým krokem a následným záznamem získaných hodnot v číselné podobě.

Digitalizace zvuku zahrnuje dva procesy:

    proces vzorkování (vzorkování signálu v čase);

    kvantizační proces podle amplitudy.

Proces vzorkování času - proces získávání hodnot signálu, které jsou převedeny s určitým časovým krokem - krok vzorkování .

Nazývá se počet měření velikosti signálu provedených za jednu sekundu vzorkovací frekvence nebo vzorkovací frekvence nebo vzorkovací frekvence(z anglického „ampling“ - „sampling“).

Čím menší je krok vzorkování, tím vyšší je vzorkovací frekvence a tím přesnější zobrazení signálu obdržíme.

Proces amplitudové kvantování - proces nahrazování skutečných hodnot amplitudy signálu hodnotami přibližnými s určitou přesností.

Kvantování– vzorkování podle úrovně.

Předpokládá se, že kvantizační chyby vyplývající z 16bitové kvantizace zůstávají pro posluchače téměř nepostřehnutelné.

Je volána každá z 2 N možných úrovní kvantizační úroveň, a nazývá se vzdálenost mezi dvěma nejbližšími kvantizačními úrovněmi kvantizační krok.

Volá se číslo N kvantizační bitová hloubka a čísla získaná jako výsledek zaokrouhlení hodnot amplitudy jsou počítá nebo vzorky(z anglického „sample“ - „měřeno“).

Kvantizační chyby vyplývající z 16bitové kvantizace zůstávají pro posluchače téměř neviditelné.

Digitalizace zvuku – shrnutí:

Pro: můžete zakódovat jakýkoli zvuk (včetně hlasu, píšťalky, šustění, ...)

nevýhody: dochází ke ztrátě informací, velkému objemu souborů

Hlavní parametry ovlivňující kvalitu zvuku:

1. Bitová hloubka- dimenze (počet bitů informace zakódovaných/dekódovaných pomocí ADC a DAC).

2. Vzorkovací frekvence- vzorkovací frekvence časově spojitého signálu při jeho vzorkování (ADC), měřená v Hertzech.

3. Hluk- nežádoucí fázové a/nebo frekvenční náhodné odchylky přenášeného signálu

Formáty zvukových souborů

      WAV(Průběh audio formát), často bez komprese (velikost!)

      MP3 (MPEG-1 Zvuk Vrstva 3 , komprese zohledňující lidské vnímání)

      A.A.C. (Pokročilé kódování zvuku, 48 kanálů, komprese)

      WMA (Windows Media Audio, streamování zvuku, komprese)

      OGG (Ogg Vorbis, otevřený formát, komprese)

Boření populárních mýtů o digitálním zvuku.

2017-10-01T15:27

2017-10-01T15:27

Audiofilský software

Poznámka: Pro lepší pochopení níže uvedeného textu vřele doporučuji seznámit se se základy digitálního zvuku.

Mnoho z níže uvedených bodů je také pokryto v mé publikaci „Ještě jednou o smutné pravdě: odkud se vlastně bere dobrý zvuk? .

Čím vyšší je bitrate, tím lepší je kvalita stopy.

Ne vždy tomu tak je. Nejprve mi dovolte, abych vám připomněl, co je bitray T(bitrate, ne bitraid). To je ve skutečnosti rychlost přenosu dat v kilobitech za sekundu během přehrávání. To znamená, že pokud vezmeme velikost stopy v kilobitech a vydělíme ji dobou trvání v sekundách, dostaneme její datový tok – tzv. file-based bitrate (FBR), obvykle se příliš neliší od bitrate audio streamu (důvodem rozdílů je přítomnost metadat ve stopě - tagy, vložené obrázky atd.).

Nyní si uveďme příklad: bitová rychlost nekomprimovaného zvuku PCM zaznamenaného na běžném zvukovém CD se vypočítá takto: 2 (kanály) × 16 (bitů na vzorek) × 44100 (vzorků za sekundu) = 1411200 (bps) = 1411,2 kbps . Nyní vezmeme a zkomprimujeme stopu jakýmkoli bezztrátovým kodekem („bezeztrátový“ - „bezeztrátový“, tedy takovým, který nevede ke ztrátě jakékoli informace), například kodekem FLAC. Ve výsledku dostaneme bitrate nižší než původní, ale kvalita zůstane nezměněna – zde je vaše první vyvrácení.

Zde je ještě jedna věc, kterou stojí za to dodat. Výstupní datový tok s bezztrátovou kompresí může být velmi odlišný (ale zpravidla je nižší než u nekomprimovaného zvuku) - záleží na složitosti komprimovaného signálu, přesněji na redundanci dat. Jednodušší signály se tedy budou komprimovat lépe (tj. máme menší velikost souboru za stejnou dobu => nižší bitrate) a složitější budou komprimovat hůře. To je důvod, proč má bezztrátová klasická hudba nižší datový tok než například rock. Nutno ale zdůraznit, že bitrate zde není v žádném případě ukazatelem kvality zvukového materiálu.

Nyní si povíme něco o ztrátové kompresi. Nejprve musíte pochopit, že existuje mnoho různých kodérů a formátů, a dokonce i v rámci stejného formátu se kvalita kódování různých kodérů může lišit (například QuickTime AAC kóduje mnohem lépe než zastaralý FAAC), nemluvě nadřazenost moderních formátů (OGG Vorbis, AAC, Opus) nad MP3. Jednoduše řečeno, ze dvou stejných stop zakódovaných různými kodéry se stejným bitratem bude jedna znít lépe a druhá hůře.

Kromě toho existuje něco jako přebal. To znamená, že můžete vzít skladbu ve formátu MP3 s datovým tokem 96 kbps a převést ji na MP3 320 kbps. Nejenže se kvalita nezlepší (ostatně data ztracená při předchozím kódování 96 kbit/s nelze vrátit), dokonce se ještě zhorší. Zde stojí za zmínku, že v každé fázi ztrátového kódování (s jakýmkoli datovým tokem a jakýmkoli kodérem) je do zvuku zavedeno určité zkreslení.

A ještě víc. Je tu ještě jedna nuance. Pokud je, řekněme, datový tok audio streamu 320 kbps, neznamená to, že všech 320 kbps bylo vynaloženo na kódování právě v tu sekundu. To je typické pro kódování s konstantním datovým tokem a pro případy, kdy si člověk v naději na maximální kvalitu vynutí, aby byl konstantní datový tok příliš vysoký (například nastavením 512 kbps CBR pro Nero AAC). Jak je známo, počet bitů přidělených konkrétnímu rámci je regulován psychoakustickým modelem. Ale v případě, že je přidělené množství mnohem nižší než nastavený bitrate, ani zásobník bitů neušetří (o termínech si přečtěte v článku „Co jsou CBR, ABR, VBR?“) - v důsledku toho jsme k ničemu „nulové bity“, které jednoduše „dokončí“ » velikost rámce na požadovanou velikost (tj. zvětší velikost toku na zadanou hodnotu). To se mimochodem snadno kontroluje - zkomprimujte výsledný soubor archivátorem (nejlépe 7z) a podívejte se na kompresní poměr - čím je vyšší, tím více nulových bitů (protože vedou k redundanci), tím více plýtvání místem.

Ztrátové kodeky (MP3 a další) si dokážou poradit s moderní elektronickou hudbou, ale nejsou schopny kvalitního kódování klasické (akademické), živé, instrumentální hudby.

„Ironie osudu“ je v tom, že ve skutečnosti je všechno přesně naopak. Jak známo, akademická hudba se v drtivé většině případů řídí melodickými a harmonickými principy a také instrumentální skladbou. Z matematického hlediska z toho vyplývá poměrně jednoduchá harmonická kompozice hudby. Převaha konsonancí tedy vytváří menší počet sekundárních harmonických: například pro kvintu (interval, ve kterém se základní frekvence dvou zvuků liší jedenapůlkrát), bude každá druhá harmonická společná pro oba zvuky. , pro kvartu, kde se frekvence liší o jednu třetinu - každá třetina atd. Navíc přítomnost pevných frekvenčních poměrů díky použití stejného temperamentu také zjednodušuje spektrální složení klasické hudby. Živá instrumentální skladba klasiky určuje absenci šumu charakteristického pro elektronickou hudbu, zkreslení, prudké skoky v amplitudě, stejně jako absenci přemíry vysokofrekvenčních složek.

Výše uvedené faktory vedou k tomu, že vážná hudba je mnohem snazší komprimovat, především čistě matematicky. Pokud si pamatujete, matematická komprese funguje tak, že eliminuje redundanci (popisuje podobné části informací pomocí menšího počtu bitů) a také vytváří předpovědi (aka. prediktory předvídat chování signálu a pak se zakóduje pouze odchylka skutečného signálu od predikovaného - čím přesněji se shodují, tím méně bitů je potřeba pro kódování). V v tomto případě Relativně jednoduché spektrální složení a harmonie vedou k vysoké redundanci, jejíž eliminace poskytuje značný stupeň komprese, a malý počet shluků a šumových složek (což jsou náhodné a nepředvídatelné signály) určuje dobrou matematickou předvídatelnost naprosté většiny informací. . A to ani nemluvím o relativně nízké průměrné hlasitosti klasických skladeb a častých intervalech ticha, pro které není potřeba prakticky žádné informace kódovat. Díky tomu můžeme bezztrátově komprimovat například nějakou sólovou instrumentální hudbu na bitrate pod 320 kbps (toho docela umí enkodéry TAK a OFR).

Za prvé, faktem je, že matematická komprese, která je základem bezeztrátového kódování, je také jednou z fází ztrátového kódování (přečtěte si Porozumění kódování MP3). A za druhé, protože ztrátový používá Fourierovu transformaci (rozklad signálu na harmonické), jednoduchost spektrálního složení dokonce usnadňuje práci kodéru dvojnásobně. Výsledkem je, že při srovnání originálních a zakódovaných ukázek klasické hudby ve slepém testu s překvapením zjistíme, že nenajdeme žádné rozdíly ani při relativně nízkém datovém toku. A vtipné na tom je, že když začneme úplně snižovat bitrate kódování, první věc, která odhalí rozdíly, je šum pozadí v nahrávce.

Co se týče elektronické hudby, kodéři to mají velmi těžké: šumové složky mají minimální redundanci a spolu s ostrými skoky (nějakými pilovitými pulsy) jsou extrémně nepředvídatelnými signály (pro kodéry, kteří jsou „šití“ na přirozené zvuky, které se chovají úplně jinak), přímá a inverzní Fourierova transformace s odmítnutím jednotlivých harmonických psychoakustickým modelem nevyhnutelně dává pre- a post-echo efekty, jejichž slyšitelnost není pro kodér vždy snadné posoudit... Přidejte k tomu vysoká úroveň VF komponentů - a dostanete velký počet zabijácké samply, se kterými si ani ty nejpokročilejší kodéry při středně nízkých bitratech neporadí, kupodivu zvláště mezi elektronickou hudbou.

Úsměvné jsou i názory „zkušených posluchačů“ a hudebníků, kteří při naprostém nepochopení principů ztrátového kódování začnou tvrdit, že slyší, jak se nástroje v hudbě po kódování začínají rozladit, frekvence plují , atd. To může stále platit pro předpotopní kazetové přehrávače s detonací, ale v digitálním audiu je vše přesné: frekvenční složka buď zůstane, nebo se zahodí, prostě není potřeba posouvat tonalitu. Navíc: přítomnost hudebního ucha u člověka vůbec neznamená, že má dobrý frekvenční sluch (např. schopnost vnímat frekvence >16 kHz, která s věkem mizí) a vůbec mu neusnadňuje hledání artefaktů ztrátového kódování, protože zkreslení Tyto mají velmi specifický charakter a vyžadují zkušenost se slepým porovnáváním ztrátového zvuku - musíte vědět, co a kde hledat.

DVD-Audio zní lépe než Audio CD (24 bitů vs. 16, 96 kHz vs. 44,1 atd.)

Bohužel se lidé většinou dívají pouze na čísla a velmi zřídka přemýšlejí o vlivu konkrétního parametru na objektivní kvalitu.

Podívejme se nejprve na bitovou hloubku. Tento parametr není zodpovědný za nic jiného než za dynamický rozsah, tedy rozdíl mezi nejtišším a nejhlasitějším zvukem (v dB). U digitálního zvuku je maximální úroveň 0 dBFS (FS - plný rozsah) a minimum je omezeno úrovní šumu, to znamená, že ve skutečnosti je dynamický rozsah v absolutní hodnotě roven úrovni šumu. U 16bitového zvuku se dynamický rozsah vypočítá jako 20 × log 10 2 16, což se rovná 96,33 vB. Přitom dynamický rozsah symfonického orchestru je až 75 dB (většinou asi 40-50 dB).

Nyní si představme reálné podmínky. Hladina hluku v místnosti je cca 40 dB (nezapomeňte, že dB je relativní hodnota. V tomto případě se za práh slyšitelnosti bere 0 dB), maximální hlasitost hudby dosahuje 110 dB (aby se předešlo nepohodlí) – my dosáhnete rozdílu 70 dB. Ukazuje se tedy, že dynamický rozsah více než 70 dB je v tomto případě prostě k ničemu. Tedy s rozsahem nad resp hlasité zvuky dosáhne prahu bolesti, popř tiché zvuky budou pohlceny okolním hlukem. Je velmi obtížné dosáhnout úrovně okolního hluku nižší než 15 dB (protože hlasitost lidského dýchání a další hluk způsobený lidskou fyziologií je na této úrovni), výsledkem je rozsah 95 dB pro poslech hudby. aby bylo zcela dostačující.

Nyní o vzorkovací frekvenci (vzorkovací frekvence, vzorkovací frekvence). Tento parametr řídí časovou vzorkovací frekvenci a přímo ovlivňuje maximální frekvenci signálu, kterou lze popsat danou audio reprezentací. Podle Kotelnikovovy věty se rovná polovině vzorkovací frekvence. To znamená, že pro obvyklou vzorkovací frekvenci 44100 Hz je maximální frekvence složek signálu 22050 Hz. Maximální frekvence. který je vnímán lidským uchem, je mírně nad 20 000 Hz (a pak při narození; jak stárneme, práh klesá na 16 000 Hz).

Nejlepší toto téma je popsána v článku 24/192 stažení – proč nedávají smysl.

Různé softwarové přehrávače znějí odlišně (např. foobar2000 je lepší než Winamp atd.)

Abyste pochopili, proč tomu tak není, musíte pochopit, co je softwarový přehrávač. V podstatě se jedná o dekodér, handlery (volitelné), výstupní plugin (do jednoho z rozhraní: ASIO, DirectSound, WASAPI atd.) a samozřejmě GUI ( GUI uživatel). Protože dekodér v 99,9 % případů pracuje podle standardního algoritmu a výstupní plug-in je pouze součástí programu, který přenáší stream na zvukovou kartu přes jedno z rozhraní, jediným důvodem rozdílů může být manipulátory. Faktem však je, že handlery jsou obvykle ve výchozím nastavení zakázány (nebo by měly být zakázány, protože hlavní věc pro dobrý hráč- být schopen předat zvuk v jeho „nepůvodní“ podobě). Ve výsledku zde může být jediným předmětem srovnání možnosti zpracování a výstup, které mimochodem velmi často nejsou vůbec nutné. Ale i když je taková potřeba, pak se jedná o srovnání procesorů, nikoli přehrávačů.

Různé verze ovladačů znějí odlišně

Toto tvrzení je založeno na banální neznalosti principů fungování zvukové karty. Řidič je software, nezbytné pro efektivní interakci zařízení s operační systém, který také obvykle poskytuje grafické uživatelské rozhraní umožňující správu zařízení, jeho nastavení atd. Ovladač zvukové karty zajišťuje rozpoznání zvukové karty jako zvukové karty Zařízení Windows, informuje OS o formátech podporovaných kartou, zajišťuje přenos nekomprimovaného PCM (ve většině případů) streamu na kartu a také umožňuje přístup k nastavení. Kromě toho, pokud existuje softwarové zpracování (pomocí CPU), může ovladač obsahovat různé DSP (procesory). Proto za prvé, když jsou efekty a zpracování vypnuté, pokud ovladač neposkytuje přesný přenos PCM na kartu, je to považováno za hrubou chybu, kritickou chybu. A to se stává extrémně vzácné. Na druhou stranu mohou být rozdíly mezi ovladači v aktualizaci algoritmů zpracování (resamplery, efekty), i když to se také nestává často. Navíc dosáhnout nejvyšší kvality efekty a jakékoli zpracování ovladače by mělo být stále vyloučeno.

Aktualizace ovladačů se tedy zaměřují především na zlepšení stability a odstranění chyb při zpracování. Ani jedno ani druhé v našem případě neovlivňuje kvalitu přehrávání, proto v 999 případech z 1000 nemá ovladač na zvuk žádný vliv.

Licencovaná zvuková CD znějí lépe než jejich kopie

Pokud se během kopírování nevyskytly žádné (fatální) chyby čtení/zápisu a optická mechanika zařízení, na kterém se bude kopírovací disk přehrávat, nejsou problémy s jeho čtením, pak je takové tvrzení chybné a snadno vyvratitelné.

Režim kódování Stereo poskytuje lepší kvalitu než režim Joint Stereo

Tato mylná představa se týká hlavně LAME MP3, protože všechny moderní kodéry (AAC, Vorbis, Musepack) používají pouze Společný stereo režim (a to už něco říká)

Pro začátek je vhodné zmínit, že režim Joint Stereo se úspěšně používá s bezztrátovou kompresí. Jeho podstata spočívá v tom, že před kódováním je signál rozložen na součet pravého a levého kanálu (Mid) a jejich rozdílu (Side) a následně dochází k samostatnému kódování těchto signálů. V limitu (pro stejnou informaci v pravém i levém kanálu) je dosaženo dvojnásobné úspory dat. A protože ve většině hudby jsou informace v pravém a levém kanálu velmi podobné, tato metoda se ukazuje jako velmi účinná a umožňuje výrazně zvýšit kompresní poměr.

Ve ztrátě je princip stejný. Ale zde, v režimu konstantního bitového toku, se kvalita fragmentů s podobnými informacemi ve dvou kanálech zvýší (v limitu, dvojnásobek) a pro režim VBR na takových místech se bitrate jednoduše sníží (nezapomeňte, že hlavní úkol režimu VBR je stabilně udržovat specifikovanou kvalitu kódování s použitím nejnižší možné bitové rychlosti). Protože během ztrátového kódování je priorita (při distribuci bitů) dána součtu kanálů, aby se zabránilo zhoršení stereo panorama, dynamické přepínání mezi společným stereo (střední/strana) a normálním (levý/pravý) rámovým stereo režimů se používá. Mimochodem, důvodem této mylné představy byla nedokonalost přepínacího algoritmu ve starších verzích LAME a také přítomnost režimu Forced Joint, ve kterém nedochází k automatickému přepínání. V nejnovější verze Režim LAME Joint je ve výchozím nastavení povolen a nedoporučuje se jej měnit.

Čím širší spektrum, tím lepší kvalita záznamu (o spektrogramech, auCDtect a frekvenčním rozsahu)

V dnešní době je na fórech bohužel velmi běžné měřit kvalitu stopy „pravítkem pomocí spektrogramu“. Pochopitelně kvůli jednoduchosti této metody. Ale jak ukazuje praxe, ve skutečnosti je všechno mnohem složitější.

A tady je ta věc. Spektrogram vizuálně demonstruje rozložení síly signálu na frekvencích, ale nemůže poskytnout úplný obraz o zvuku nahrávky, přítomnosti zkreslení a kompresních artefaktů v něm. Tedy v podstatě vše, co lze ze spektrogramu určit, je frekvenční rozsah(a částečně - spektrální hustota v oblasti HF). To znamená, že v nejlepším případě lze pomocí analýzy spektrogramu identifikovat vzestupnou konverzi. Srovnávat spektrogramy stop získaných kódováním různými kodéry s originálem je naprostá absurdita. Ano, rozdíly ve spektru lze identifikovat, ale určit, zda (a do jaké míry) je lidské ucho bude vnímat, je téměř nemožné. Nesmíme zapomínat, že úkolem ztrátového kódování je zajistit nerozeznatelný výsledek lidské ucho z originálu (ne od oka).

Totéž platí pro hodnocení kvality kódování analýzou výstupních stop programem auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - to jsou jen shelly pro jedinečný konzolový program auCDtect). Algoritmus auCDtect také ve skutečnosti analyzuje frekvenční rozsah a umožňuje pouze určit (s určitým stupněm pravděpodobnosti), zda byla v některé z fází kódování použita komprese MPEG. Algoritmus je přizpůsoben pro MP3, takže je snadné jej „oklamat“ pomocí kodeků Vorbis, AAC a Musepack, takže i když program napíše „100% CDDA“, neznamená to, že kódovaný zvuk je 100% shodný s původním.

A návrat přímo ke spektru. Mezi některými „nadšenci“ je také populární přání za každou cenu deaktivovat dolní propust v kodéru LAME. Zde je zjevný nedostatek porozumění principům kódování a psychoakustiky. Za prvé, kodér ořezává vysoké frekvence pouze za jediným účelem – pro uložení dat a jejich použití ke kódování nejslyšitelnějšího frekvenčního rozsahu. Rozšířený frekvenční rozsah může mít fatální dopad na celkovou kvalitu zvuku a vést ke slyšitelným artefaktům kódování. Navíc vypnutí cutoff na 20 kHz je obecně zcela neopodstatněné, protože člověk prostě neslyší vyšší frekvence.

Existuje určitá „magická“ předvolba ekvalizéru, která může výrazně zlepšit zvuk

To není tak úplně pravda, za prvé, protože každá jednotlivá konfigurace (sluchátka, akustika, zvuková karta) má své vlastní parametry (zejména svou amplitudově-frekvenční charakteristiku). A proto musí mít každá konfigurace svůj vlastní, jedinečný přístup. Jednoduše řečeno, taková předvolba ekvalizéru existuje, ale liší se pro různé konfigurace. Jeho podstata spočívá v úpravě frekvenční odezvy cesty, konkrétně ve „vyrovnání“ nežádoucích poklesů a rázů.

Také mezi lidmi, kteří mají k přímé práci se zvukem daleko, je velmi oblíbené nastavení grafického ekvalizéru „tíkem“, což vlastně představuje zvýšení úrovně nízkofrekvenčních a vysokofrekvenčních složek, ale zároveň vede k tlumení vokálů a nástrojů, jejichž zvukové spektrum je ve středofrekvenční oblasti.

Před převodem hudby do jiného formátu byste ji měli dekomprimovat do WAV

Hned upozorňuji, že WAV znamená PCM data (pulzní kódová modulace) v kontejneru WAVE (soubor s příponou *.wav). Tato data nejsou nic jiného než sekvence bitů (nul a jedniček) ve skupinách po 16, 24 nebo 32 (v závislosti na bitové hloubce), z nichž každý představuje binární kód pro amplitudu odpovídajícího vzorku (např. 16 bitů v desítkovém zápisu to jsou hodnoty od -32768 do +32768).

Faktem tedy je, že jakýkoli zvukový procesor - ať už je to filtr nebo kodér - obvykle funguje pouze s těmito hodnotami, tzn pouze s nekomprimovanými daty. To znamená, že převést zvuk z řekněme FLAC na APE můžete jednoduše nutné Nejprve dekódujte FLAC na PCM a poté zakódujte PCM na APE. Je to jako přebalování souborů ze ZIP do RAR, musíte nejprve rozbalit ZIP.

Pokud však použijete konvertor nebo pouze pokročilý konzolový kodér, k přechodnému převodu do PCM dojde za běhu, někdy dokonce bez zápisu do dočasného souboru WAV. To je to, co lidi klame: zdá se, že formáty jsou převáděny přímo z jednoho do druhého, ale ve skutečnosti takový program musí mít dekodér vstupního formátu, který provádí přechodný převod do PCM.

Ruční převod do WAV vám tedy nepřinese nic jiného než ztrátu času.

Co bude určovat kvalitu digitalizovaného zvuku?

    Pro kvalitu digitálního zvuku jsou zásadní dvě věci: kvalita původního zvukového doprovodu a kvalita analogově-digitálního převodníku.

    Co se kvality původního soundtracku týče, vše je přibližně jasné. Pokud je zakřivený (s deformacemi) nebo hlučný, pak to žádná digitalizace nezlepší. No, to znamená, že je možné pomocí různých zpracování, včetně digitálního, izolovat užitečný signál, který se používá při izolaci řeči na pozadí vnějšího šumu nebo při izolaci běžného signálu na pozadí náhodného šumu (každý má sledoval filmy o spinech, ne?), ale pokud se bavíme o hudebním fonogramu, tedy fonogramu se širokým spektrem, pak nepomohou nejrůznější triky.

    Budeme tedy předpokládat, že zvukový záznam je vysoce kvalitní.

    Pak už zbývá jen ADC.

    Hlavním ukazatelem je zde bitová hloubka kódování. Je jasné, že čím je větší, tím je lepší, ale na druhou stranu je takový převodník složitější a dražší. Na úsvitu digitální technologie (což nebylo tak dávno...) byl 16bitový finální záznam uznán jako optimální z hlediska poměru cena/kvalita. S nižší bitovou hloubkou trpí dynamický rozsah digitální kopie zvukového záznamu - zvuky nízké úrovně (pianissimo) tvoří pouze malou část všech bitů, což znamená, že postupná povaha změny signálu je patrná. A filtrování dolní propusti zde příliš nepomůže (zmínky o Kotelnikovově teorému jsou vítány, ale nesmíme zapomínat, že mlčky předpokládá perfektní analogově-digitální převod, to znamená s nekonečně velkou bitovou hloubkou). Vzhledem k tomu, že jakékoli zpracování, a to i v digitální podobě, může efektivní bitovou hloubku pouze snížit, digitalizace ve studiích byla a dodnes probíhá s větším počtem bitů.

    V dnešní době již není neobvyklé, že se digitální zvukové záznamy připravují s bitovou hloubkou 24 bitů (super-Audio CD, Audio-DVD). S takovou hloubkou bude možné plně zprostředkovat dynamický rozsah jakéhokoli hudebního díla, dokonce i Ravelova Bolera, které začíná sotva slyšitelným partem virblů a končí fortissimem s celým orchestrem.

    Tady to máš. Kromě bitové hloubky jsou důležité i další parametry ADC, především nelinearita a šum. Hlavně zvuky. Protože omezují efektivní bitovou kapacitu převodníku. K čemu je těchto 24 bitů, když posledních 8 z nich je hlučných a nenesou tedy žádné užitečné informace... Hladina hluku moderních 24bitových ADC může při vzorkovacích frekvencích nad 100 kHz dosáhnout -115 dB, to už je docela slušné a rozdílová nelinearita se měří v desetitisícinách procenta. To znamená, že taková řešení snadno překračují možnosti lidského ucha.

  • Bude záležet na třech hlavních parametrech:

    1. Vzorkovací frekvence. Omezuje šířku pásma přenášených frekvencí: maximální frekvence přenášeného signálu je pod polovinou vzorkovací frekvence. V telefonii se nejčastěji používá vzorkovací frekvence 8 kHz, což dává teoretické pásmo o něco užší než 4 kHz (v praxi se používá pásmo 300-3000 Hz). A standard CD používá frekvenci 44,1 kHz, která umožňuje plně přenášet spektrum 20 Hz - 20 kHz. Zvýšení vzorkovací frekvence nad tyto hodnoty nedává smysl z hlediska rozsahu přenášených frekvencí, ale snižuje úroveň intermodulačního zkreslení. Ve standardu DVD Audio je maximální vzorkovací frekvence 192 kHz, některé dobré zvukové karty pro počítače také podporují tuto vzorkovací frekvenci (šířka pásma přehrávání a frekvence nahrávání se model od modelu liší). Další standardní hodnoty jsou 96, 48, 32, 22,05, 11,025 kHz.
    2. Bitová hloubka kódování. Závisí na něm dynamický rozsah – u lineárního kódování je rozdíl mezi plným švihem a minimálním krokem 256krát pro 8 bitů a 65536krát pro 16 bitů, což je 48, respektive 96 dB. 48 dB je upřímně málo, to je úroveň dynamického rozsahu kompaktní kazety a kromě úzkého dynamického rozsahu vznikají nepříjemné zkreslení, zvláště jasně slyšitelné v tichých místech - důsledek transformace hladkého signálu do stupňovité. U 16bitů je kvalita zvuku již docela dobrá (to je bitová hloubka, kterou CD používá), ale v mnoha skutečných případech není ideální - mnoho klasických děl, stejně jako těžká hudba, vyžaduje větší DD. Vysoce kvalitní systémy používají 24bitové kódování, ačkoli skutečný počet významných bitů nepřesahuje 18-20. Další zvyšování bitové hloubky nemá smysl.
    3. Metoda kódování. To má dvě strany. První je samotná vzorkovací stupnice. Obvykle je lineární, ale může být také logaritmický. To poskytuje zvýšení dynamického rozsahu při stejné bitové hloubce, ale úroveň zkreslení je vyšší než při stejném dynamickém rozsahu s lineárním měřítkem a vyšší bitovou hloubkou. Druhým je použití různých algoritmů ztrátové komprese. V souvislosti s tím druhým se objevuje pojem bitrate. Poslední je počet bitů potřebných k zakódování jedné sekundy zvuku. Datový tok přirozeně závisí na vzorkovací frekvenci a bitové hloubce, ale také na kompresním poměru. Komprese může být ztrátová nebo bezztrátová. Bezeztrátová komprese je v podstatě běžná archivace a nemá vliv na zvuk. A se ztrátami, proto jsou prohry. Kodér analyzuje zvukovou informaci a zahodí data, vedena psychoakustickými úvahami: ztráta toho, co bude nejméně slyšitelné. Tedy slabý zvuk na pozadí silného, ​​slabé vysokofrekvenční zvuky na pozadí silných středofrekvenčních zvuků a tak dále. Na střední a vysoké frekvence informace o fázi mohou být vyřazeny. Výsledkem je, že při 4,5násobné komprimaci nahrávky v CD kvalitě (bitrate 320 kbps, mp3/Lame) je slyšitelné zhoršení nahrávky tak nepatrné, že bez dobrého vybavení je velmi obtížné rozeznat rozdíl. A při bitrate 128 je zhoršení kvality zvuku již zřejmé a mnoho nahrávek zní prostě nepříjemně. Ale s plastovými reproduktory nebo reproduktory zabudovanými do notebooku tento rozdíl neuslyšíte.

© 2024 ermake.ru -- O opravě PC - Informační portál