Co decyduje o jakości dźwięku cyfrowego? Jakie parametry decydują o jakości dźwięku cyfrowego?

Dom / Odzyskiwanie danych

Dźwięk to fala rozchodząca się najczęściej w powietrzu, wodzie lub innym ośrodku o stale zmieniającym się natężeniu i częstotliwości.

Osoba może odbierać fale dźwiękowe (wibracje powietrza) za pomocą słuchu w postaci dźwięku, rozróżniając głośność i ton.

Tym bardziej intensywność fala dźwiękowa, im głośniejszy jest dźwięk; im wyższa częstotliwość fali, tym wyższa wysokość dźwięku.


Zależność głośności i wysokości dźwięku od natężenia i częstotliwości fali dźwiękowej

Herc(wskazywany przez Hz lub Hz) - jednostka miary częstotliwości procesów okresowych (na przykład oscylacji). 1 Hz oznacza jedno wykonanie takiego procesu w ciągu jednej sekundy: 1 Hz = 1/s.

Jeśli mamy 10 Hz, oznacza to, że w ciągu jednej sekundy mamy dziesięć wykonań takiego procesu.

Ludzkie ucho odbiera dźwięk o częstotliwościach od 20 wibracji na sekundę (20 Hz, niski dźwięk) do 20 000 wibracji na sekundę (20 kHz, wysoki dźwięk).

Ponadto człowiek może odbierać dźwięk w szerokim zakresie natężeń, w którym maksymalne natężenie jest 1014 razy większe od minimalnego (sto tysięcy miliardów razy).

Aby zmierzyć głośność dźwięku, wynaleziono i zastosowano specjalną jednostkę „ decybel" (dB)

Zmniejszenie lub zwiększenie głośności dźwięku o 10 dB odpowiada 10-krotnemu zmniejszeniu lub zwiększeniu natężenia dźwięku.

Głośność dźwięku w decybelach


Aby systemy komputerowe mogły przetwarzać dźwięk, ciągły sygnał audio musi zostać przekonwertowany na cyfrową, dyskretną postać za pomocą próbkowania czasowego.

W tym celu ciągłą falę dźwiękową dzieli się na osobne małe tymczasowe sekcje i dla każdej takiej sekcji ustawiana jest określona wartość natężenia dźwięku.

W ten sposób ciągłą zależność głośności dźwięku od czasu A(t) zastępuje się dyskretną sekwencją poziomów głośności. Na wykresie wygląda to jak zastąpienie gładkiej krzywej sekwencją „kroków”.


Próbkowanie czasowe dźwięku


Mikrofon podłączony do karty dźwiękowej służy do nagrywania dźwięku analogowego i konwertowania go do postaci cyfrowej.

Im gęstsze są dyskretne paski na wykresie, tym lepsza jakość oryginalnego dźwięku zostanie odtworzona.

Jakość powstałego dźwięku cyfrowego zależy od liczby pomiarów poziomu głośności dźwięku w jednostce czasu, czyli częstotliwości próbkowania.

Częstotliwość próbkowania dźwięku to liczba pomiarów głośności dźwięku w ciągu jednej sekundy.

Im więcej pomiarów wykonuje się w ciągu jednej sekundy (im wyższa częstotliwość próbkowania), tym dokładniej „drabina” cyfrowego sygnału audio odpowiada krzywej sygnału analogowego.

Każdemu „krokowi” na wykresie przypisana jest określona wartość poziomu głośności dźwięku. Poziomy głośności dźwięku można traktować jako zbiór możliwych stanów N(gradacje), do zakodowania wymagana jest pewna ilość informacji I, co nazywa się głębokością kodowania dźwięku.

Głębokość kodowania dźwięku to ilość informacji potrzebna do zakodowania odrębnych poziomów głośności dźwięku cyfrowego.

Jeśli znana jest głębokość kodowania, liczbę poziomów głośności dźwięku cyfrowego można obliczyć za pomocą ogólnego wzoru N=2I.

Załóżmy na przykład, że głębokość kodowania dźwięku wynosi 16 bitów, w którym to przypadku liczba poziomów głośności dźwięku będzie równa:

N = 2 Ja = 2 16 = 65 536.

Podczas procesu kodowania każdemu poziomowi głośności przypisany jest własny 16-bitowy kod binarny; najniższy poziom dźwięku będzie odpowiadał kodowi 000000000000000, a najwyższy - 1111111111111111.

Cyfrowa jakość dźwięku


Zatem im wyższa częstotliwość próbkowania i głębokość kodowania dźwięku, tym wyższa jakość dźwięku cyfrowego i tym lepiej można go zbliżyć do dźwięku oryginalnego.

Najniższą jakość zdigitalizowanego dźwięku, odpowiadającą jakości komunikacji telefonicznej, uzyskuje się przy częstotliwości próbkowania 8000 razy na sekundę, głębokości próbkowania 8 bitów i zapisie jednej ścieżki audio (tryb mono).

Najwyższą jakość cyfrowego dźwięku, odpowiadającą jakości audio CD, osiąga się przy częstotliwości próbkowania 48 000 razy na sekundę, głębokości próbkowania 16 bitów i zapisie dwóch ścieżek audio (tryb stereo).

Trzeba o tym pamiętać im wyższa jakość dźwięku cyfrowego, tym większa ilość informacji w pliku dźwiękowym.

Można łatwo oszacować objętość informacji cyfrowego pliku audio stereo o czasie trwania dźwięku wynoszącym 1 sekundę i średniej jakości dźwięku (16 bitów, 24 000 pomiarów na sekundę). Aby to zrobić, głębokość kodowania należy pomnożyć przez liczbę pomiarów na sekundę i pomnożyć przez 2 kanały (dźwięk stereo):

16 bitów × 24 000 × 2 = 768 000 bitów = 96 000 bajtów = 93,75 KB.

Redaktorzy dźwięku


Edytory dźwięku umożliwiają nie tylko nagrywanie i odtwarzanie dźwięku, ale także jego edycję. Najbardziej znane można śmiało nazwać, np Sony SoundForge, Audyt Adobe, Złota Fala i inne.

Zdigitalizowany dźwięk prezentowany jest w edytorach dźwięku w przejrzystej formie wizualnej, dzięki czemu operacje kopiowania, przenoszenia i usuwania fragmentów ścieżki dźwiękowej można łatwo przeprowadzić za pomocą myszki komputerowej.

Ponadto możesz się nakładać, nakładać ścieżki dźwiękowe na siebie (miksować dźwięki) i stosować różne efekty akustyczne (echo, odtwarzanie wstecz itp.).

Edytory dźwięku umożliwiają zmianę jakości dźwięku cyfrowego i rozmiaru końcowego pliku dźwiękowego poprzez zmianę częstotliwości próbkowania i głębokości kodowania. Cyfrowy dźwięk można zapisać w postaci nieskompresowanej w plikach audio w uniwersalnym formacie WAV (format Microsoft) lub w skompresowanych formatach OGG i MP3 (kompresja stratna).
Dostępne są również mniej popularne, ale godne uwagi formaty kompresji bezstratnej.

Podczas zapisywania dźwięku w formatach skompresowanych odrzucane są częstotliwości dźwięku o niskim natężeniu, które są niesłyszalne i niedostrzegalne („nadmierne”) dla ludzkiej percepcji, zbiegające się w czasie z częstotliwościami dźwięku o dużym natężeniu. Użycie tego formatu umożliwia kompresję pliki dźwiękowe kilkadziesiąt razy, ale prowadzi do nieodwracalnej utraty informacji (plików nie można przywrócić w ich oryginalnej, oryginalnej formie).

Główne parametry wpływające na jakość cyfrowego zapisu dźwięku to:

§ Pojemność bitowa ADC i DAC.

§ Częstotliwości próbkowania ADC i DAC.

§ Jitter ADC i DAC

§ Nadpróbkowanie

Ważne są także parametry toru analogowego cyfrowych urządzeń do rejestracji i odtwarzania dźwięku:

§ Stosunek sygnału do szumu

§ Współczynnik zniekształceń harmonicznych

§ Zniekształcenia intermodulacyjne

§ Nierówna charakterystyka amplitudowo-częstotliwościowa

§ Wzajemne przenikanie kanałów

§ Zakres dynamiki

Technologia cyfrowego nagrywania dźwięku

Cyfrowe nagrywanie dźwięku odbywa się obecnie w studiach nagraniowych prowadzonych przez komputery osobiste oraz inny drogi i wysokiej jakości sprzęt. Dość szeroko rozwinięta jest także koncepcja „domowego studia”, w którym wykorzystuje się profesjonalny i półprofesjonalny sprzęt nagraniowy, co pozwala na tworzenie wysokiej jakości nagrań w domu.

Karty dźwiękowe stosowane są jako część komputerów, które wykonują przetwarzanie w swoich przetwornikach ADC i DAC – najczęściej w rozdzielczości 24 bity i 96 kHz. Dalsze zwiększanie głębi bitowej i częstotliwości próbkowania praktycznie nie poprawia jakości nagrania;

Istnieje cała klasa programów komputerowych - edytorów dźwięku, które umożliwiają pracę z dźwiękiem:

§ nagrywaj przychodzący strumień audio

§ tworzyć (generować) dźwięk

§ zmienić istniejące nagranie (dodać próbki, zmienić barwę, prędkość dźwięku, wyciąć fragmenty itp.)

§ przepisać z jednego formatu na inny

§ konwertuj konwertuj różne kodeki audio

Niektóre proste programy, zezwalaj tylko na konwersję formatów i kodeków.

Rodzaje cyfrowych formatów audio

Istnieją różne koncepcje formatu dźwięku.

Format reprezentacji danych audio w postaci cyfrowej zależy od metody kwantyzacji stosowanej w przetworniku cyfrowo-analogowym (DAC). W inżynierii dźwięku obecnie najczęściej stosowane są dwa rodzaje kwantyzacji:

§ modulacja impulsowo-kodowa

§ modulacja sigma-delta

Często głębokość bitowa kwantyzacji i częstotliwość próbkowania są wskazywane dla różnych urządzeń do nagrywania i odtwarzania dźwięku jako format cyfrowej prezentacji dźwięku (24 bity/192 kHz; 16 bitów/48 kHz).

Format pliku określa strukturę i cechy prezentacji danych dźwiękowych przechowywanych na urządzeniu pamięci masowej komputera. Aby wyeliminować nadmiarowość danych audio, do kompresji danych audio używane są kodeki audio. Istnieją trzy grupy formatów plików dźwiękowych:

§ Nieskompresowane formaty audio, takie jak WAV, AIFF

§ formaty audio z kompresją bezstratną (APE, FLAC)

§ formaty audio wykorzystujące kompresję stratną (mp3, ogg)

Wyróżniają się modułowe formaty plików muzycznych. Tworzone syntetycznie lub z sampli nagranych wcześniej żywych instrumentów, służą głównie do tworzenia nowoczesnej muzyki elektronicznej (MOD). Dotyczy to również formatu MIDI, który nie jest zapisem dźwięku, ale jednocześnie przy użyciu sekwencera pozwala na nagrywanie i odtwarzanie muzyki za pomocą określonego zestawu poleceń w formie tekstowej.

Cyfrowe formaty nośników audio wykorzystywane są zarówno do masowej dystrybucji nagrań dźwiękowych (CD, SACD), jak i do profesjonalnego nagrywania dźwięku (DAT, minidisc).

W przypadku systemów dźwięku przestrzennego można także wyróżnić formaty audio, które stanowią głównie wielokanałowy akompaniament audio do filmów. Takie systemy mają całe rodziny formatów od dwóch dużych konkurencyjnych firm, Digital Theatre Systems Inc. — DTS i Dolby Laboratories Inc. -Dolby cyfrowe.

Format ten nazywany jest także liczbą kanałów w wielokanałowych systemach dźwiękowych (5.1; 7.1). Początkowo taki system był opracowywany dla kin, ale później został rozbudowany o kodek programowy

Kodek audio na poziomie programu

§ G.723.1 - jeden z podstawowych kodeków dla aplikacji telefonii IP

§ G.729 to zastrzeżony kodek wąskopasmowy używany do cyfrowej reprezentacji mowy

§ Internet Low Bitrate Codec (iLBC) - popularny darmowy kodek dla telefonii IP (w szczególności dla Skype i Google Talk)

Kodek audio(Angielski) Kodek audio; koder/dekoder audio) – program komputerowy lub sprzęt komputerowy, przeznaczony do kodowania lub dekodowania danych audio.

Kodek oprogramowania

Kodek audio na poziomie programu jest wyspecjalizowany program komputerowy, kodek, który kompresuje (kompresuje) lub dekompresuje (dekompresuje) cyfrowe dane audio zgodnie z formatem pliku audio lub formatem strumieniowego przesyłania dźwięku. Zadaniem kodeka audio jako kompresora jest dostarczanie sygnału audio o określonej jakości/dokładności i możliwie najmniejszym rozmiarze. Kompresja zmniejsza ilość miejsca wymaganego do przechowywania danych audio, a także może zmniejszyć przepustowość kanału, przez który przesyłane są dane audio. Większość kodeków audio jest implementowana jako biblioteki oprogramowania, które współdziałają z jednym lub większą liczbą odtwarzaczy audio, takich jak QuickTime Player, XMMS, Winamp, VLC media player, MPlayer lub Windows Media Player.

Popularne programowe kodeki audio według aplikacji:

§ MPEG-1 Layer III (MP3) – zastrzeżony kodek do nagrań audio (muzyki, audiobooków itp.) dla sprzęt komputerowy i odtwarzacze cyfrowe

§ Ogg Vorbis (OGG) – drugi najpopularniejszy format, szeroko stosowany w gry komputerowe oraz w sieciach wymiany plików do przesyłania muzyki

§ GSM-FR - pierwszy standard cyfrowy kodowanie mowy stosowane w telefonach GSM

§ Adaptacyjna wielostopniowa (AMR) – nagrywanie ludzkiego głosu telefony komórkowe i inne urządzenia mobilne

Dźwięk– fala o stale zmieniającej się amplitudzie i częstotliwości. Im większa amplituda, tym głośniej jest dla danej osoby; im większa częstotliwość, tym wyższy ton.

Dźwięk cyfrowy to analogowy sygnał audio reprezentowany przez dyskretne wartości liczbowe jego amplitudy.

W rdzeniu kodowanie dźwięku Używanie komputerów polega na przetwarzaniu wibracji powietrza na drgania prądu elektrycznego i późniejszym próbkowaniu analogowego sygnału elektrycznego.

Kodowanie i reprodukcja informacji audio odbywa się za pomocą specjalne programy(redaktorzy nagrań).

Jakość reprodukcji zakodowanego dźwięku zależy od częstotliwości próbkowania i jego rozdzielczości.

Cyfryzacja dźwięku - (lub konwersja analogowo-cyfrowa) - technologia konwersji analogowej sygnał dźwiękowy w formie cyfrowej, co odbywa się poprzez pomiar amplitudy sygnału w określonym kroku czasowym, a następnie zapisanie uzyskanych wartości w postaci liczbowej.

Digitalizacja dźwięku obejmuje dwa procesy:

    proces pobierania próbek (próbkowanie sygnału w czasie);

    proces kwantyzacji według amplitudy.

Proces próbkowania czasowego - proces uzyskiwania wartości sygnału, które są konwertowane z określonym krokiem czasowym - krok próbkowania .

Nazywa się liczbą pomiarów wielkości sygnału przeprowadzanych w ciągu jednej sekundy częstotliwość próbkowania Lub częstotliwość próbkowania, Lub częstotliwość próbkowania(z angielskiego „ampling” - „sampling”).

Im mniejszy krok próbkowania, tym wyższa częstotliwość próbkowania i dokładniejsza reprezentacja sygnału, który otrzymamy.

Proces kwantyzacja amplitudy - proces zastępowania rzeczywistych wartości amplitudy sygnału wartościami przybliżonymi z pewną dokładnością.

Kwantyzacja– pobieranie próbek według poziomu.

Zakłada się, że błędy kwantyzacji wynikające z 16-bitowej kwantyzacji pozostają prawie niezauważalne dla słuchacza.

Nazywa się każdy z 2 N możliwych poziomów poziom kwantyzacji, a odległość między dwoma najbliższymi poziomami kwantyzacji nazywa się krok kwantyzacji.

Nazywa się liczbę N głębia bitowa kwantyzacji, a liczby uzyskane w wyniku zaokrąglenia wartości amplitudy wynoszą liczy się Lub próbki(z angielskiego „próbka” - „zmierzona”).

Błędy kwantyzacji wynikające z 16-bitowej kwantyzacji pozostają prawie niewidoczne dla słuchacza.

Digitalizacja dźwięku – podsumowanie:

Plusy: możesz zakodować dowolny dźwięk (w tym głos, gwizdek, szelest, ...)

Wady: następuje utrata informacji, duża ilość plików

Główne parametry wpływające na jakość dźwięku:

1. Głębia bitowa- wymiar (liczba bitów informacji zakodowanych/dekodowanych przez ADC i DAC).

2. Częstotliwość próbkowania- częstotliwość próbkowania sygnału ciągłego w czasie jego próbkowania (ADC), mierzona w hercach.

3. Hałas- niepożądane przypadkowe odchylenia fazy i/lub częstotliwości przesyłanego sygnału

Formaty plików audio

      WAV(Przebieg audio format), często bez kompresji (rozmiar!)

      poseł3 (MPEG-a-1 Audio Warstwa 3 , kompresja uwzględniająca percepcję człowieka)

      AAC (Zaawansowane kodowanie dźwięku, 48 kanałów, kompresja)

      WMA (Dźwięk w mediach Windows, strumieniowe przesyłanie dźwięku, kompresja)

      OGG (Ogg Vorbis, format otwarty, kompresja)

Obalamy popularne mity na temat dźwięku cyfrowego.

2017-10-01T15:27

2017-10-01T15:27

Oprogramowanie audiofila

Notatka: Aby lepiej zrozumieć poniższy tekst, gorąco polecam zapoznanie się z podstawami dźwięku cyfrowego.

Ponadto wiele z poruszanych poniżej kwestii poruszam w mojej publikacji „Jeszcze raz o smutnej prawdzie: skąd tak naprawdę bierze się dobry dźwięk?” .

Im wyższy bitrate, tym lepsza jakość ścieżki.

Nie zawsze tak jest. Na początek przypomnę, czym jest bitray T(bitrate, nie bitraid). W rzeczywistości jest to szybkość transmisji danych w kilobitach na sekundę podczas odtwarzania. Oznacza to, że jeśli weźmiemy wielkość ścieżki w kilobitach i podzielimy ją przez jej czas trwania w sekundach, otrzymamy jej przepływność – tzw. bitrate plikowy (FBR), zwykle nie różni się on zbytnio od bitrate strumienia audio (powodem różnic jest obecność w ścieżce metadanych - tagów, osadzonych obrazów itp.).

Weźmy teraz przykład: szybkość transmisji nieskompresowanego dźwięku PCM nagranego na zwykłej płycie Audio CD jest obliczana w następujący sposób: 2 (kanały) × 16 (bitów na próbkę) × 44100 (próbek na sekundę) = 1411200 (bps) = 1411,2 kbps. Teraz weźmy i skompresujmy utwór dowolnym bezstratnym kodekiem („bezstratnym” – „bezstratnym”, czyli takim, który nie powoduje utraty jakichkolwiek informacji), np. kodekiem FLAC. W rezultacie otrzymamy bitrate niższy od pierwotnego, ale jakość pozostanie niezmieniona – oto Twoje pierwsze obalenie.

Warto tu dodać jeszcze jedną rzecz. Wyjściowa przepływność przy kompresji bezstratnej może być bardzo różna (ale z reguły jest mniejsza niż w przypadku nieskompresowanego dźwięku) - zależy to od złożoności skompresowanego sygnału, a dokładniej od redundancji danych. W ten sposób prostsze sygnały zostaną skompresowane lepiej (tzn. będziemy mieli mniejszy rozmiar pliku przez ten sam czas => niższy bitrate), a bardziej złożone będą kompresowane gorzej. Dlatego bezstratna muzyka klasyczna ma niższą przepływność niż, powiedzmy, rock. Trzeba jednak podkreślić, że bitrate w żadnym wypadku nie jest wyznacznikiem jakości materiału audio.

Porozmawiajmy teraz o kompresji stratnej (ze stratami). Przede wszystkim musisz zrozumieć, że istnieje wiele różnych koderów i formatów, a nawet w ramach tego samego formatu jakość kodowania różnych koderów może się różnić (na przykład QuickTime AAC koduje znacznie lepiej niż przestarzały FAAC), nie mówiąc już o wyższość nowoczesnych formatów (OGG Vorbis, AAC, Opus) nad MP3. Mówiąc najprościej, z dwóch identycznych utworów zakodowanych przez różne kodery z tą samą szybkością transmisji bitów, jeden będzie brzmiał lepiej, a drugi gorzej.

Poza tym jest coś takiego jak koperta. Oznacza to, że możesz pobrać utwór w formacie MP3 z szybkością transmisji 96 kb/s i przekonwertować go na MP3 320 kb/s. Jakość nie tylko nie ulegnie poprawie (w końcu danych utraconych podczas poprzedniego kodowania 96 kbit/s nie da się odzyskać), ale nawet się pogorszy. Warto w tym miejscu zaznaczyć, że na każdym etapie kodowania stratnego (przy dowolnej przepływności i dowolnym koderze) do dźwięku wprowadzana jest pewna ilość zniekształceń.

A nawet więcej. Jest jeszcze jeden niuans. Jeśli, powiedzmy, szybkość transmisji strumienia audio wynosi 320 kb/s, nie oznacza to, że całe 320 kb/s zostało wydane na zakodowanie tej właśnie sekundy. Jest to typowe dla kodowania ze stałą przepływnością oraz w przypadkach, gdy osoba chcąc uzyskać maksymalną jakość, wymusza zbyt dużą stałą przepływność (np. ustawiając CBR na 512 kb/s dla Nero AAC). Jak wiadomo, liczba bitów przypisanych do konkretnej ramki jest regulowana przez model psychoakustyczny. Ale w przypadku, gdy przydzielona kwota jest znacznie niższa niż ustawiona przepływność, nawet zbiornik bitów nie zapisuje (przeczytaj o warunkach w artykule „Co to są CBR, ABR, VBR?”) - w rezultacie stajemy się bezużyteczni „bity zerowe”, które po prostu „dokończają” » rozmiar ramki do wymaganego rozmiaru (czyli zwiększają rozmiar przepływu do określonego). Nawiasem mówiąc, łatwo to sprawdzić - skompresuj powstały plik za pomocą archiwizatora (najlepiej 7z) i spójrz na stopień kompresji - im wyższy, tym więcej bitów zerowych (ponieważ prowadzą one do redundancji), tym więcej zmarnowanego miejsca.

Kodeki stratne (MP3 i inne) radzą sobie z nowoczesną muzyką elektroniczną, ale nie są w stanie kodować wysokiej jakości muzyki klasycznej (akademickiej), żywej, instrumentalnej

„Ironia losu” polega na tym, że w rzeczywistości wszystko jest dokładnie odwrotnie. Jak wiadomo, muzyka akademicka w zdecydowanej większości opiera się na zasadach melodycznych i harmonicznych, a także kompozycji instrumentalnej. Z matematycznego punktu widzenia skutkuje to stosunkowo prostą harmoniczną kompozycją muzyki. Zatem przewaga współbrzmień powoduje mniejszą liczbę harmonicznych wtórnych: na przykład dla piątej (interwału, w którym częstotliwości podstawowe dwóch dźwięków różnią się półtora raza) co druga harmoniczna będzie wspólna dla obu dźwięków , dla czwartej, gdzie częstotliwości różnią się o jedną trzecią - co trzecią itd. Ponadto obecność ustalonych stosunków częstotliwości, ze względu na zastosowanie równego temperamentu, również upraszcza kompozycję widmową muzyki klasycznej. Instrumentalna kompozycja klasyków na żywo charakteryzuje się brakiem szumów charakterystycznych dla muzyki elektronicznej, zniekształceń, ostrych skoków amplitudy i brakiem nadmiaru składników o wysokiej częstotliwości.

Wymienione powyżej czynniki sprawiają, że muzykę klasyczną znacznie łatwiej jest skompresować, przede wszystkim czysto matematycznie. Jeśli pamiętasz, kompresja matematyczna działa poprzez eliminację nadmiarowości (opisywanie podobnych fragmentów informacji przy użyciu mniejszej liczby bitów), a także poprzez przewidywanie (tzw. predyktory przewidzieć zachowanie sygnału, a następnie kodowane jest jedynie odchylenie sygnału rzeczywistego od przewidywanego – im dokładniej są one zgodne, tym mniej bitów potrzeba do zakodowania). W w tym przypadku Stosunkowo prosty skład widmowy i harmonia decydują o dużej redundancji, której wyeliminowanie zapewnia znaczny stopień kompresji, a niewielka liczba impulsów i składowych szumu (które są sygnałami losowymi i nieprzewidywalnymi) decyduje o dobrej matematycznej przewidywalności zdecydowanej większości informacji. I nawet nie mówię o stosunkowo niskim średnim natężeniu głośności klasycznych utworów i częstych interwałach ciszy, dla których praktycznie nie jest wymagana żadna informacja do zakodowania. Dzięki temu możemy bezstratnie kompresować na przykład część solowej muzyki instrumentalnej do bitrate poniżej 320 kbps (kodery TAK i OFR są w stanie to zrobić).

Zatem, po pierwsze, faktem jest, że kompresja matematyczna leżąca u podstaw kodowania bezstratnego jest również jednym z etapów kodowania stratnego (przeczytaj Zrozumienie kodowania MP3). A po drugie, ponieważ stratny wykorzystuje transformatę Fouriera (rozkład sygnału na harmoniczne), prostota składu widmowego nawet podwójnie ułatwia pracę kodera. W rezultacie, porównując oryginalne i zakodowane próbki muzyki klasycznej w ślepym teście, ze zdziwieniem stwierdzamy, że nie możemy znaleźć żadnych różnic, nawet przy stosunkowo niskiej przepływności. A najśmieszniejsze jest to, że kiedy zaczynamy całkowicie zmniejszać bitrate kodowania, pierwszą rzeczą, która ujawnia różnice, są szumy tła w nagraniu.

Jeśli chodzi o muzykę elektroniczną, koderzy mają z nią bardzo trudny problem: składowe szumu mają minimalną redundancję, a wraz z ostrymi skokami (swego rodzaju impulsy piłokształtne) stanowią sygnały skrajnie nieprzewidywalne (dla koderów „dostosowanych” do naturalnych dźwięków, które zachowują się zupełnie inaczej), bezpośrednia i odwrotna transformata Fouriera z odrzuceniem poszczególnych harmonicznych przez model psychoakustyczny nieuchronnie wytwarza efekty przed i po echu, których słyszalność nie zawsze jest łatwa do oceny dla kodera... Dodaj do tego wysoki poziom komponentów HF - i dostajesz duża liczba zabójcze próbki, z którymi nawet najbardziej zaawansowani kodery nie radzą sobie przy średnio-niskich przepływnościach, co dziwne, szczególnie w muzyce elektronicznej.

Zabawne są też opinie „doświadczonych słuchaczy” i muzyków, którzy z całkowitym brakiem zrozumienia zasad kodowania stratnego zaczynają twierdzić, że słyszą, jak instrumenty w muzyce po kodowaniu zaczynają się rozstrajać, częstotliwości płyną itp. Może to nadal dotyczyć przedpotopowych odtwarzaczy kasetowych z detonacją, ale w cyfrowym audio wszystko jest dokładne: składowa częstotliwościowa albo pozostaje, albo jest odrzucana, po prostu nie ma potrzeby zmiany tonacji. Co więcej: obecność ucha do muzyki wcale nie oznacza, że ​​ma on dobry słuch częstotliwościowy (np. zdolność odbierania częstotliwości > 16 kHz, która zanika z wiekiem) i wcale nie ułatwia mu słuchania muzyki. szukaj artefaktów kodowania stratnego, gdyż zniekształcenia mają bardzo specyficzny charakter i wymagają doświadczenia w ślepym porównywaniu stratnego dźwięku - trzeba wiedzieć, czego i gdzie szukać.

DVD-Audio brzmi lepiej niż Audio CD (24 bity w porównaniu z 16, 96 kHz w porównaniu z 44,1 itd.)

Niestety, ludzie zazwyczaj patrzą tylko na liczby i bardzo rzadko myślą o wpływie konkretnego parametru na obiektywną jakość.

Rozważmy najpierw głębię bitową. Parametr ten odpowiada jedynie za zakres dynamiki, czyli różnicę pomiędzy najcichszym i najgłośniejszym dźwiękiem (w dB). W dźwięku cyfrowym maksymalny poziom wynosi 0 dBFS (FS - pełna skala), a minimalny jest ograniczony poziomem szumu, tj. W rzeczywistości zakres dynamiki w wartości bezwzględnej jest równy poziomowi szumu. W przypadku dźwięku 16-bitowego zakres dynamiki oblicza się jako 20 × log 10 2 16, co równa się 96,33 vB. Jednocześnie zakres dynamiki orkiestry symfonicznej wynosi do 75 dB (przeważnie około 40-50 dB).

Teraz wyobraźmy sobie rzeczywiste warunki. Poziom hałasu w pomieszczeniu wynosi około 40 dB (nie zapominaj, że dB to wartość względna. W tym przypadku za próg słyszalności przyjmuje się 0 dB), maksymalna głośność muzyki osiąga 110 dB (aby uniknąć dyskomfortu) - my uzyskać różnicę 70 dB. Okazuje się zatem, że zakres dynamiki większy niż 70 dB w tym przypadku jest po prostu bezużyteczny. Oznacza to, że z zakresem powyżej lub głośne dźwięki osiągnie próg bólu, lub ciche dźwięki będą pochłaniane przez hałas otoczenia. Bardzo trudno jest osiągnąć poziom hałasu otoczenia mniejszy niż 15 dB (ponieważ głośność ludzkiego oddechu i innych hałasów powodowanych przez fizjologię człowieka jest na tym poziomie), w rezultacie okazuje się, że zakres słuchania muzyki wynosi 95 dB być całkowicie wystarczające.

Teraz o częstotliwości próbkowania (częstotliwość próbkowania, częstotliwość próbkowania). Parametr ten kontroluje częstotliwość próbkowania czasu i bezpośrednio wpływa na maksymalną częstotliwość sygnału, jaką można opisać daną reprezentacją audio. Zgodnie z twierdzeniem Kotelnikowa jest ona równa połowie częstotliwości próbkowania. Oznacza to, że dla zwykłej częstotliwości próbkowania wynoszącej 44100 Hz maksymalna częstotliwość składowych sygnału wynosi 22050 Hz. Maksymalna częstotliwość. odbierana przez ludzkie ucho wynosi nieco powyżej 20 000 Hz (a następnie w chwili urodzenia; wraz z wiekiem próg spada do 16 000 Hz).

To, co najlepsze ten temat jest omówione w artykule 24/192 pobrań – dlaczego nie mają one sensu.

Różne odtwarzacze programowe brzmią inaczej (np. foobar2000 jest lepszy niż Winamp itp.)

Aby zrozumieć, dlaczego tak nie jest, musisz zrozumieć, czym jest odtwarzacz oprogramowania. Zasadniczo jest to dekoder, handlery (opcjonalnie), wtyczka wyjściowa (do jednego z interfejsów: ASIO, DirectSound, WASAPI. itp.) i oczywiście GUI ( graficzny interfejs użytkownika użytkownik). Ponieważ dekoder w 99,9% przypadków działa według standardowego algorytmu, a wtyczka wyjściowa jest tylko częścią programu przesyłającego strumień do karty dźwiękowej przez jeden z interfejsów, jedyną przyczyną różnic może być obsługi. Ale faktem jest, że programy obsługi są zwykle domyślnie wyłączone (lub powinny być wyłączone, ponieważ najważniejsze jest dobry gracz- być w stanie przekazać dźwięk w jego „nieskazitelnej” formie). W rezultacie jedynym przedmiotem porównania może być tutaj możliwości przetwarzanie i drukowanie, które, nawiasem mówiąc, bardzo często nie są w ogóle konieczne. Ale nawet jeśli istnieje taka potrzeba, jest to porównanie procesorów, a nie odtwarzaczy.

Różne wersje sterowników brzmią inaczej

Twierdzenie to opiera się na banalnej nieznajomości zasad działania karty dźwiękowej. Kierowca jest oprogramowanie, niezbędne do efektywnej współpracy urządzenia z system operacyjny, który zwykle zapewnia również graficzny interfejs użytkownika umożliwiający zarządzanie urządzeniem, jego ustawieniami itp. Sterownik karty dźwiękowej zapewnia rozpoznanie karty dźwiękowej jako karty dźwiękowej Urządzenia z systemem Windows, informuje system operacyjny o formatach obsługiwanych przez kartę, zapewnia transmisję nieskompresowanego strumienia PCM (w większości przypadków) na kartę, a także daje dostęp do ustawień. Ponadto, jeśli odbywa się przetwarzanie programowe (przy użyciu narzędzi CPU), sterownik może zawierać różne procesory DSP (procesory). Dlatego, po pierwsze, przy wyłączonych efektach i przetwarzaniu, jeśli sterownik nie zapewnia dokładnej transmisji PCM na kartę, jest to uważane za poważny błąd, błąd krytyczny. I to się dzieje niezwykle rzadkie. Z drugiej strony różnice pomiędzy sterownikami mogą polegać na aktualizacji algorytmów przetwarzania (resamplery, efekty), chociaż to też nie zdarza się często. Co więcej, do osiągnięcia najwyższa jakość skutki i nadal należy wykluczyć przetwarzanie sterowników.

Dlatego aktualizacje sterowników skupiają się głównie na poprawie stabilności i eliminacji błędów przetwarzania. Ani jedno, ani drugie w naszym przypadku nie wpływa na jakość odtwarzania, dlatego w 999 przypadkach na 1000 sterownik nie ma żadnego wpływu na dźwięk.

Licencjonowane płyty Audio CD brzmią lepiej niż ich kopie

Jeśli podczas kopiowania i zapisu nie wystąpiły żadne (krytyczne) błędy odczytu/zapisu napęd optyczny urządzeniu, na którym kopia płyty będzie odtwarzana, nie ma problemów z jej odczytaniem, wówczas takie stwierdzenie jest błędne i łatwe do obalenia.

Tryb kodowania stereo zapewnia lepszą jakość niż Joint Stereo

To błędne przekonanie dotyczy głównie LAME MP3, ponieważ wszystkie nowoczesne kodery (AAC, Vorbis, Musepack) używają tylko Wspólny tryb Stereo (a to już coś mówi)

Na początek warto wspomnieć, że tryb Joint Stereo z powodzeniem sprawdza się przy kompresji bezstratnej. Jego istota polega na tym, że przed zakodowaniem sygnał jest rozkładany na sumę prawego i lewego kanału (Mid) oraz ich różnicę (Side), a następnie następuje oddzielne kodowanie tych sygnałów. W limicie (dla tych samych informacji w kanale prawym i lewym) uzyskuje się podwójną oszczędność danych. A ponieważ w większości muzyki informacje w prawym i lewym kanale są dość podobne, metoda ta okazuje się bardzo skuteczna i pozwala znacznie zwiększyć stopień kompresji.

W stratnym zasada jest taka sama. Ale tutaj, w trybie stałego bitrate, jakość fragmentów z podobnymi informacjami w dwóch kanałach wzrośnie (w limicie, dwukrotnie), a dla trybu VBR w takich miejscach bitrate po prostu spadnie (nie zapominaj, że głównym zadaniem trybu VBR polega na stabilnym utrzymaniu określonej jakości kodowania przy możliwie najniższej przepływności). Ponieważ podczas kodowania stratnego priorytet (przy dystrybucji bitów) ma suma kanałów, aby uniknąć pogorszenia panoramy stereo, dynamiczne przełączanie pomiędzy Joint Stereo (Mid/Side) a zwykłym (Lewy/Prawy) stereo opartym na ramkach używane są tryby. Nawiasem mówiąc, przyczyną tego błędnego przekonania była niedoskonałość algorytmu przełączania w starszych wersjach LAME, a także obecność trybu wymuszonego połączenia, w którym nie ma automatycznego przełączania. W najnowsze wersje Tryb LAME Joint jest domyślnie włączony i nie zaleca się jego zmiany.

Im szersze spektrum, tym lepsza jakość nagrania (o spektrogramach, auCDtect i zakresie częstotliwości)

W dzisiejszych czasach na forach niestety bardzo powszechne jest mierzenie jakości utworu „linijką za pomocą spektrogramu”. Oczywiście ze względu na prostotę tej metody. Ale, jak pokazuje praktyka, w rzeczywistości wszystko jest znacznie bardziej skomplikowane.

I o to chodzi. Spektrogram wizualnie pokazuje rozkład mocy sygnału na częstotliwościach, ale nie może dać pełnego obrazu dźwięku nagrania, obecności w nim zniekształceń i artefaktów kompresji. Oznacza to, że zasadniczo wszystko, co można określić na podstawie spektrogramu, jest zakres częstotliwości(i częściowo - gęstość widma w obszarze HF). Oznacza to, że w najlepszym przypadku na podstawie analizy spektrogramu można zidentyfikować konwersję w górę. Porównywanie spektrogramów utworów uzyskanych poprzez kodowanie różnymi koderami z oryginałem to kompletny absurd. Tak, różnice w widmie można zidentyfikować, ale określenie, czy (i w jakim stopniu) będą one odbierane przez ludzkie ucho, jest prawie niemożliwe. Nie wolno nam zapominać, że zadaniem kodowania stratnego jest zapewnienie nierozróżnialnego wyniku ludzkie ucho od oryginału (nie na oko).

To samo dotyczy oceny jakości kodowania poprzez analizę ścieżek wyjściowych programem auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect – to tylko powłoki dla jedynego w swoim rodzaju programu konsolowego auCDtect). Algorytm auCDtect tak naprawdę analizuje również zakres częstotliwości i pozwala jedynie określić (z pewnym prawdopodobieństwem), czy na którymś etapie kodowania zastosowano kompresję MPEG. Algorytm jest dostosowany do MP3, więc łatwo go „oszukać” za pomocą kodeków Vorbis, AAC i Musepack, więc nawet jeśli program napisze „100% CDDA”, nie oznacza to, że zakodowany dźwięk jest 100% identyczny z oryginalnym.

I wracając bezpośrednio do widm. Wśród niektórych „entuzjastów” panuje także powszechna chęć wyłączenia za wszelką cenę filtra dolnoprzepustowego w koderze LAME. Wyraźny jest brak zrozumienia zasad kodowania i psychoakustyki. Po pierwsze, koder obcina wysokie częstotliwości tylko w jednym celu – aby zapisać dane i wykorzystać je do zakodowania najbardziej słyszalnego zakresu częstotliwości. Rozszerzony zakres częstotliwości może mieć fatalny wpływ na ogólną jakość dźwięku i prowadzić do słyszalnych artefaktów kodowania. Co więcej, wyłączenie odcięcia przy 20 kHz jest generalnie całkowicie nieuzasadnione, ponieważ dana osoba po prostu nie słyszy częstotliwości wyższych.

Istnieje pewne „magiczne” ustawienie korektora, które może znacznie poprawić dźwięk

Nie jest to do końca prawdą, po pierwsze dlatego, że każda indywidualna konfiguracja (słuchawki, akustyka, karta dźwiękowa) ma swoje własne parametry (w szczególności charakterystykę amplitudowo-częstotliwościową). Dlatego każda konfiguracja musi mieć swoje własne, unikalne podejście. Mówiąc najprościej, takie ustawienie wstępne korektora istnieje, ale różni się w zależności od konfiguracji. Jego istota polega na dostosowaniu charakterystyki częstotliwościowej toru, czyli na „wyrównaniu” niepożądanych spadków i przepięć.

Również wśród osób dalekich od bezpośredniej pracy z dźwiękiem bardzo popularne jest ustawienie korektora graficznego za pomocą „ptaszka”, co w rzeczywistości oznacza podniesienie poziomu składowych o niskiej i wysokiej częstotliwości, ale jednocześnie prowadzi do stłumienia wokali i instrumentów, których spektrum dźwięku mieści się w obszarze średnich częstotliwości.

Przed konwersją muzyki do innego formatu należy ją rozpakować do formatu WAV

Od razu zaznaczę, że WAV oznacza dane PCM (modulację impulsowo-kodową) w kontenerze WAVE (plik z rozszerzeniem *.wav). Dane te to nic innego jak ciąg bitów (zer i jedynek) w grupach po 16, 24 lub 32 (w zależności od głębi bitowej), z których każdy reprezentuje kod binarny amplitudy odpowiedniej próbki (np. 16 bitów w zapisie dziesiętnym są to wartości od -32768 do +32768).

Faktem jest więc, że każdy procesor dźwięku – czy to filtr, czy koder – zwykle działa tylko z tymi wartościami, tj tylko z nieskompresowanymi danymi. Oznacza to, że aby przekonwertować dźwięk z, powiedzmy, FLAC na APE, wystarczy niezbędny Najpierw zdekoduj FLAC do PCM, a następnie zakoduj PCM do APE. To jak przepakowywanie plików z ZIP do RAR, musisz najpierw rozpakować ZIP.

Jeśli jednak użyjesz konwertera lub po prostu zaawansowanego kodera konsolowego, pośrednia konwersja do PCM nastąpi w locie, czasami nawet bez zapisywania do tymczasowego pliku WAV. To właśnie wprowadza ludzi w błąd: wydaje się, że formaty są konwertowane bezpośrednio z jednego na drugi, ale tak naprawdę taki program musi mieć dekoder formatu wejściowego, który wykonuje pośrednią konwersję na PCM.

Zatem ręczna konwersja do formatu WAV nie spowoduje nic poza stratą czasu.

Co będzie decydować o jakości zdigitalizowanego dźwięku?

    Dla jakości dźwięku cyfrowego istotne są dwie rzeczy: jakość oryginalnej ścieżki dźwiękowej i jakość przetwornika analogowo-cyfrowego.

    Jeśli chodzi o jakość oryginalnej ścieżki dźwiękowej, wszystko jest w przybliżeniu jasne. Jeśli jest zakrzywiony (ze zniekształceniami) lub zaszumiony, żadna cyfryzacja go nie poprawi. No cóż, czyli poprzez różne przetwarzanie, w tym cyfrowe, można wyizolować sygnał użyteczny, który wykorzystuje się przy izolowaniu mowy na tle szumu zewnętrznego lub przy izolowaniu sygnału zwykłego na tle szumu losowego (każdy ma oglądałem filmy o spinach, prawda?), ale jeśli mówimy o fonogramie muzycznym, czyli fonogramie o szerokim spektrum, to wszelkie sztuczki nie pomogą.

    Zakładamy więc, że fonogram jest wysokiej jakości.

    Wtedy pozostaje tylko ADC.

    Głównym wskaźnikiem jest tutaj głębokość bitowa kodowania. Wiadomo, że im jest większy, tym lepiej, ale z drugiej strony tym bardziej skomplikowany i kosztowny jest taki konwerter. U zarania technologii cyfrowej (co nie było tak dawno...) za optymalny pod względem stosunku ceny do jakości uznawano 16-bitowy zapis końcowy. Przy mniejszej głębi bitowej cierpi zakres dynamiki cyfrowej kopii fonogramu – dźwięki o niskim poziomie (pianissimo) stanowią tylko niewielką część wszystkich bitów, co oznacza, że ​​zauważalny staje się skokowy charakter zmiany sygnału. I filtrowanie dolnoprzepustowe niewiele tu pomoże (wspomnienia o twierdzeniu Kotelnikowa mile widziane, ale nie zapominajmy, że milcząco zakłada doskonały konwersja analogowo-cyfrowa, czyli z nieskończenie dużą głębią bitową). Ponieważ jakakolwiek obróbka, nawet w formie cyfrowej, może jedynie zmniejszyć efektywną głębię bitową, digitalizacja w studiach była i nadal jest przeprowadzana do dziś z większą liczbą bitów.

    Obecnie nie jest już niczym niezwykłym, że cyfrowe fonogramy są przygotowywane z głębią bitową wynoszącą 24 bity (super-Audio CD, Audio-DVD). Przy takiej głębi bitowej uda się w pełni oddać dynamikę każdego dzieła muzycznego, nawet Bolero Ravela, które zaczyna się ledwo słyszalną częścią werbli, a kończy fortissimo całą orkiestrą.

    Proszę bardzo. Oprócz głębi bitowej ważne są także inne parametry ADC, przede wszystkim nieliniowość i szum. Szczególnie hałasy. Ponieważ ograniczają efektywną pojemność bitową konwertera. Jaki jest sens tych 24 bitów, jeśli ostatnie 8 z nich jest zaszumione i dlatego nie niosą ze sobą żadnego znaczenia? przydatne informacje... Poziom szumów nowoczesnych 24-bitowych przetworników ADC może sięgać -115 dB przy częstotliwości próbkowania powyżej 100 kHz, co jest już całkiem przyzwoite, a nieliniowość różnicowa mierzona jest w dziesięciotysięcznych procenta. Oznacza to, że takie rozwiązania z łatwością przekraczają możliwości ludzkiego ucha.

  • Będzie to zależeć od trzech głównych parametrów:

    1. Częstotliwość próbkowania. Ogranicza szerokość pasma przesyłanych częstotliwości: maksymalna częstotliwość przesyłanego sygnału jest niższa niż połowa częstotliwości próbkowania. W telefonii najczęściej stosuje się częstotliwość próbkowania 8 kHz, co daje teoretyczne pasmo nieco węższe niż 4 kHz (w praktyce stosuje się pasmo 300-3000 Hz). A standard CD wykorzystuje częstotliwość 44,1 kHz, co pozwala na pełne przesłanie widma 20 Hz - 20 kHz. Zwiększanie częstotliwości próbkowania powyżej tych wartości nie ma sensu z punktu widzenia zakresu przesyłanych częstotliwości, ale zmniejsza poziom zniekształceń intermodulacyjnych. W standardzie DVD Audio maksymalna częstotliwość próbkowania wynosi 192 kHz; niektóre dobre karty dźwiękowe do komputerów również obsługują tę częstotliwość próbkowania (szerokość pasma odtwarzania i nagrywania różni się w zależności od modelu). Inne standardowe wartości to 96, 48, 32, 22,05, 11,025 kHz.
    2. Głębia bitowa kodowania. Od tego zależy zakres dynamiki - przy kodowaniu liniowym różnica między pełnym obrotem a krokiem minimalnym wynosi 256 razy dla 8 bitów i 65536 razy dla 16 bitów, co wynosi odpowiednio 48 i 96 dB. 48 dB to szczerze mówiąc niski poziom dynamiki kasety kompaktowej, a poza tym oprócz wąskiego zakresu dynamiki powstają nieprzyjemne zniekształcenia, szczególnie wyraźnie słyszalne w cichych miejscach - konsekwencja transformacji gładkiego sygnału w schodkowy. W trybie 16-bitowym jakość dźwięku jest już całkiem dobra (jest to głębia bitowa wykorzystywana przez płytę CD), ale w wielu rzeczywistych przypadkach nie jest idealna – wiele utworów klasycznych, a także ciężka muzyka wymaga większego DD. Systemy wysokiej jakości wykorzystują kodowanie 24-bitowe, chociaż faktyczna liczba bitów znaczących nie przekracza 18-20. Dalsze zwiększanie głębi bitowej nie ma sensu.
    3. Metoda kodowania. Są dwie strony tej sytuacji. Pierwszą z nich jest sama skala próbkowania. Zwykle ma charakter liniowy, ale może być również logarytmiczny. Daje to wzrost zakresu dynamiki przy tej samej głębi bitowej, ale poziom zniekształceń jest wyższy niż przy tym samym zakresie dynamiki ze skalą liniową i większą głębią bitową. Drugim jest zastosowanie różnych algorytmów kompresji stratnej. W związku z tym ostatnim pojawia się pojęcie bitrate. Ta ostatnia to liczba bitów potrzebnych do zakodowania jednej sekundy dźwięku. Oczywiście szybkość transmisji zależy od częstotliwości próbkowania i głębi bitowej, ale także od stopnia kompresji. Kompresja może być stratna lub bezstratna. Kompresja bezstratna to w zasadzie zwykła archiwizacja, która nie ma wpływu na dźwięk. A ze stratami, dlatego są stratami. Koder analizuje informację dźwiękową i odrzuca dane, kierując się względami psychoakustycznymi: utratą tego, co będzie najmniej słyszalne. Oznacza to, że słaby dźwięk na tle silnego, słabe dźwięki o wysokiej częstotliwości na tle mocnych dźwięków średniej częstotliwości i tak dalej. Na średnim i wysokie częstotliwości informacje o fazie mogą zostać odrzucone. W rezultacie, gdy nagranie jest skompresowane do jakości CD 4,5-krotnie (bitrate 320 kbps, mp3/Lame), słyszalne pogorszenie nagrania jest na tyle nieznaczne, że bez dobrego sprzętu bardzo trudno jest dostrzec różnicę. A przy bitrate 128 pogorszenie jakości dźwięku jest już oczywiste, a wiele nagrań brzmi po prostu nieprzyjemnie. Ale w przypadku plastikowych głośników lub głośników wbudowanych w laptopa nie usłyszysz tej różnicy.

© 2024 ermake.ru - O naprawie komputerów PC - Portal informacyjny