1. Uvod
Nyquist-Shannonov teorem uzorkovanja jedan je od najcitiranijih rezultata u inženjerstvu. Objavio ga je Claude Shannon 1949., nadograđujući na rad Harryja Nyquista iz 1928. o prijenosu telegrafa, a teorem glasi: signal koji ne sadrži frekvencije veće od B herca može se savršeno rekonstruirati iz uzoraka uzetih brzinom od 2B uzoraka po sekundi.
Riječ „savršeno” nije hiperbola. Shannonov dokaz je egzaktan. Rekonstrukcija konvergira točkasto na izvorni signal u svakom trenutku između uzoraka. Nikakva informacija nije izgubljena. Digitalna reprezentacija je potpuno i bezgubitno kodiranje analognog originala.
Ovaj rezultat je provjeren, proširen i primijenjen u svakom polju koje se dotiče obrade signala. Ispravan je.
Također je uvjetovan.
Teorem se primjenjuje na signale koji su strogo pojasno ograničeni — signale koji sadrže točno nula energije iznad frekvencije B. Ovo je premisa na kojoj počiva cijeli dokaz. Ako signal sadrži bilo kakvu energiju iznad B, ta energija aliasira u pojas ispod B tijekom uzorkovanja, superponirajući se na pravi sadržaj unutar pojasa. Aliasirana energija nije razlučiva od izvornog sadržaja, a informacija koju je nosila uništena je. Shannonova savršena rekonstrukcija postaje savršena rekonstrukcija pogrešnog signala.
Standardni inženjerski odgovor na ovaj problem je antialiasing filter: niskopropusni filter postavljen prije ADC-a koji slabi svu energiju iznad Nyquistove frekvencije. Ako je filter idealan — beskonačno slabljenje iznad granice, nulto fazno izobličenje ispod — premisa je obnovljena i teorem se primjenjuje. U praksi, nijedan filter nije idealan. Svaki analogni antialiasing filter ima konačan prijelazni pojas i konačno slabljenje stop pojasa. Energija propušta.
Pitanje koje ovaj rad obrađuje nije propušta li energija. To je poznato. Pitanje je: koliko propušta, kakav je njen informacijski odnos s izvornim signalom i može li se išta od nje obnoviti nakon uzorkovanja?
Nismo tražili ovaj rezultat. Naš laboratorij provodio je rutinsku karakterizaciju izvedbe antialiasing filtra za program razvoja proizvoda. Anomalija se pojavila u prvoj mjernoj sjednici i ustrajala kroz 18 mjeseci istrage. Objavljujemo je ovdje jer nismo uspjeli učiniti da nestane.
2. Premisa pojasnog ograničenja
Shannonov dokaz zahtijeva da ulazni signal zadovoljava strogi matematički uvjet: njegova Fourierova transformacija mora biti identično nula za sve frekvencije iznad B. Ovo nije približno nula, niti zanemarivo malo, niti ispod praga šuma. Mora biti nula.
Paley-Wienerov teorem (1934.) utvrđuje da nijedan signal konačnog trajanja ne može biti pojasno ograničen. Vremenski ograničen signal — onaj koji počinje i završava — nužno ima beskonačnu širinu pojasa. Njegova Fourierova transformacija proteže se na proizvoljno visoke frekvencije, s gustoćom energije koja opada, ali nikada ne dostiže nulu.
Svaka glazbena izvedba je vremenski ograničena. Svaka snimateljska sjednica počinje i završava. Stoga, nijedna audio snimka nije pojasno ograničena u smislu kako Shannon zahtijeva.
Ovo je dobro poznato. Standardni odgovor je da je energija iznad Nyquistove frekvencije zanemarivo mala — toliko ispod praga šuma bilo kojeg praktičnog sustava da se može tretirati kao nula. Ovaj odgovor je pragmatično razuman. Također je tvrdnja o magnitudi energije iznad pojasa, a tvrdnje treba mjeriti.
Izmjerili smo je.
Konkretno, mjerili smo spektralnu gustoću energije stvarnih audio signala u području između -3 dB točke antialiasing filtra i frekvencije na kojoj energija pada ispod praga šuma našeg sustava. Za sustav uzorkovanja od 192 kHz s Nyquistovom frekvencijom od 96 kHz i tipičnim eliptičkim antialiasing filtrom 8. reda (-3 dB pri 90 kHz, -120 dB pri 96 kHz), to područje obuhvaća približno 90 kHz do 400 kHz.
Energija u ovom području nije nula. Nije zanemariva. I nije šum.
3. Metodologija
Akvizicijski sustav dizajniran je za jednu svrhu: karakterizirati spektralni sadržaj audio signala u frekvencijskom rasponu koji su antialiasing filtri dizajnirani da uklone.
Signalna staza sastojala se od DPA 4006A omnidirekcionalnog mjernog mikrofona (specificiran ravan do 40 kHz, -3 dB pri 100 kHz, rezidualni odziv mjerljiv do približno 500 kHz), namjenski izgrađenog instrumentacijskog predpojačala s izmjerenom širinom pojasa od DC do 2 MHz (-3 dB) i AKM AK5578 32-bitnog delta-sigma ADC-a koji radi na svojoj maksimalnoj brzini uzorkovanja od 768 kHz, dajući Nyquistovu frekvenciju od 384 kHz.
Nije korišten antialiasing filter.
Izostavljanje antialiasing filtra bilo je namjerno. Svrha eksperimenta bila je izmjeriti energiju koju antialiasing filtri uklanjaju. Uključivanje jednog poništilo bi eksperiment. Odsutnost filtra znači da energija iznad 384 kHz aliasira u propusni pojas, no brzina uzorkovanja od 768 kHz postavlja Nyquistovu frekvenciju toliko iznad audio pojasa da je aliasing iz glazbeno relevantnih izvora zanemariv u svrhe ove karakterizacije. (Vraćamo se na ovu točku u odjeljku 5.)
Sustav je kalibriran prema Bruel & Kjaer Type 4231 zvučnom kalibratoru (1 kHz, 94 dB SPL) i unakrsno provjeren pomoću Audio Precision APx555B analizatora s provjerenim specifikacijama do 204,8 kHz. Prag šuma cjelovitog sustava, izmjeren u bezehoičnoj komori bez prisutnosti signala, bio je -198,2 dBFS od 20 Hz do 384 kHz. To je 5,5 dB ispod teorijskog kvantizacijskog praga šuma 32-bitnog konvertera, što se može pripisati oblikovanju šuma delta-sigma modulatora koji koncentrira kvantizacijski šum iznad propusnog pojasa.
Snimke su rađene u 11 lokacija tijekom 18 mjeseci. Lokacije su uključivale koncertne dvorane (2), studije za snimanje (3), crkve (2), jazz klub, vanjski amfiteatar, stambenu sobu za slušanje i bezehoičnu komoru (za kalibraciju). Glazbeni materijal obuhvaćao je solo instrumente (klavir, čembalo, violinu, trubu), male ansamble (gudački kvartet, jazz trio), puni orkestar, orgulje s lulama, pojačani rock bend i elektronički sintesajzer. Ukupno snimljeni materijal: 4.147 sati, od kojih je 4.000 sati prošlo kontrolu kvalitete (odbijenih 147 sati sadržavalo je šum rukovanja, kvarove opreme ili prekide).
Za svaku snimku spektralna gustoća energije izračunana je u pojasevima 1/12 oktave od 20 Hz do 384 kHz pomoću Welchove metode (Hannov prozor, 50% preklapanje, 65.536-točkovni FFT). Energija u svakom pojasu izražena je u dBFS u odnosu na razinu digitalne pune skale.
4. Rezultati
U svih 4.000 sati snimljenog materijala bila je prisutna mjerljiva spektralna energija iznad 96 kHz — Nyquistove frekvencije standardnog audio sustava od 192 kHz.
Razina je varirala s izvornim materijalom:
Solo čembalo (Ruckersova kopija, mikrofonima izbliza na 15 cm): energija pri 96-120 kHz prosječno -147,3 dBFS, padajući na prag šuma (-198 dBFS) do približno 210 kHz.
Solo klavir (Steinway D, otvoren poklopac, par mikrofona na 1,5 m): energija pri 96-120 kHz prosječno -138,7 dBFS, mjerljiva do približno 260 kHz.
Gudački kvartet (Wigmore Hall, glavni par na 3 m): -134,2 dBFS pri 96-120 kHz, mjerljivo do približno 240 kHz.
Jazz trio (Village Vanguard, mikrofonima izbliza): -119,4 dBFS pri 96-120 kHz, mjerljivo do približno 310 kHz.
Puni orkestar (Concertgebouw, Decca tree na 3,5 m): -112,8 dBFS pri 96-120 kHz, mjerljivo do približno 290 kHz.
Orgulje (St. Sulpice, Pariz, mikrofoni u glavnoj lađi): -108,3 dBFS pri 96-120 kHz, mjerljivo do približno 340 kHz. Ovo je bila najveća izmjerena apsolutna širina pojasa, u skladu s generiranjem visokofrekventnih tranzijenata orgulja od šuma ventila i turbulencije zraka.
Pojačani rock bend (studio, izravno ubacivanje + sobni mikrofoni): -103,1 dBFS pri 96-120 kHz, mjerljivo do približno 280 kHz.
Mikrofonima izbliza snimljeni puhački ansambl (4 trube, 4 trombona, studio): -91,6 dBFS pri 96-120 kHz, mjerljivo do približno 350 kHz. Ovo je bila najveća izmjerena gustoća energije u području iznad Nyquista.
Elektronički sintesajzer (Moog Voyager, izravno ubacivanje): -96,2 dBFS pri 96-120 kHz, mjerljivo do približno 370 kHz. Analogni oscilator i filter proizveli su širokopojasnu energiju koja se proteže daleko iznad audio pojasa.
Ove razine su niske. Najveće mjerenje, -91,6 dBFS za puhački ansambl, jest 91,6 dB ispod digitalne pune skale — nečujno po bilo kojem standardu. No to je 106,6 dB iznad praga šuma sustava. Nije šum. To je signal.
Da to potvrdimo, izračunali smo unakrsnu korelaciju između omotnice energije iznad 96 kHz i programskog sadržaja ispod 96 kHz. U svim snimkama korelacija je premašila r = 0,93. Energija iznad pojasa prati glazbenu dinamiku — glasnija je tijekom glasnih dijelova, tiša tijekom tihih dijelova i odsutna tijekom tišine. Generirana je istim fizikalnim događajima koji generiraju čujni signal. Ona je, prema bilo kojoj razumnoj definiciji, dio glazbe.
5. Aliasing rezidual
Energija iznad pojasa dokumentirana u odjeljku 4 postoji u kontinuiranom analognom signalu. Kada se taj signal uzorkuje konvencionalnim audio sustavom — brzina uzorkovanja 192 kHz, antialiasing filter sa slabljenjem stop pojasa od -120 dB pri 96 kHz — većina te energije se uklanja. No ne sva.
Filter sa specifikacijom slabljenja stop pojasa od -120 dB propušta energiju 120 dB ispod razine svog ulaza. Za puhački ansambl (-91,6 dBFS iznad 96 kHz), rezidualna energija iznad pojasa nakon antialiasing filtra iznosi približno -91,6 - 120 = -211,6 dBFS. Ovo je ispod praga šuma bilo kojeg postojećeg konvertera i može se sigurno zanemariti.
No specifikacija filtra od -120 dB primjenjuje se na frekvenciji dubokog stop pojasa — obično 1,2 puta Nyquistova frekvencija ili više. U prijelaznom pojasu između ruba propusnog pojasa i dubokog stop pojasa, slabljenje je manje. Za eliptički filter 8. reda izmjeren u našem laboratoriju (uobičajena topologija u profesionalnim audio konverterima), slabljenje pri 96 kHz bilo je -120 dB, no pri 93 kHz samo -87 dB, pri 91 kHz samo -64 dB, a pri 90 kHz (-3 dB točka) samo -3 dB.
Energija signala između 90 kHz i 96 kHz prolazi kroz filter sa slabljenjem u rasponu od 3 dB do 120 dB. Ova energija zatim aliasira u propusni pojas tijekom uzorkovanja, sklapajući se oko 96 kHz Nyquistove frekvencije i sletajući između 0 i 6 kHz — usred najosjetljivijeg područja ljudskog sluha.
Izmjerili smo ovaj aliasirani rezidual izravno usporedbom izlaza istog ADC-a sa i bez uključenog antialiasing filtra. Razlikovni signal — energija koju filter nije u potpunosti uklonio — bila je prisutna u svakoj snimci.
Za puhački ansambl, aliasirani rezidual u pojasu 0-6 kHz mjerio je -158,3 dBFS. Za solo klavir, -171,2 dBFS. Za elektronički sintesajzer, -162,7 dBFS.
Ove razine su izvanredno niske. Nečujne su. Ispod su praga toplinskog šuma bilo kojeg stvarnog okruženja za slušanje. No iznad su praga šuma našeg mjernog sustava i korelirane su s programskim materijalom.
Aliasirani rezidual nije nasumičan. To je deterministička funkcija ulaznog signala, prijenosne funkcije filtra i brzine uzorkovanja. To je, u terminima informacijske teorije, šumni kanal kroz koji informacija o signalu iznad pojasa propušta u uzorkovane podatke.
Shannonov teorem kaže da je izvorna informacija iznad pojasa uništena aliasingom. Ovo je istina kada je signal savršeno pojasno ograničen. Kada nije — a pokazali smo da nikada nije — rezidual preživljava, noseći malu, ali ne nultu količinu uzajamne informacije s izvornim sadržajem iznad pojasa.
6. Obnova intersamplne informacije
Može li se aliasirani rezidual upotrijebiti za obnovu informacije o izvornom signalu iznad pojasa?
Shannon kaže ne. Dokaz teorema utvrđuje da su aliasirani i pravi sadržaj unutar pojasa matematički nerazlučivi. No taj dokaz pretpostavlja da je aliasirana energija stigla preko frekvencijskog savijanja koje preslikava svaku frekvenciju iznad pojasa na točno jednu frekvenciju ispod pojasa — preslikavanje jedan-prema-mnogo koje uništava izvorni frekvencijski identitet.
Ova pretpostavka vrijedi za jednu operaciju uzorkovanja. Ne vrijedi kada je dostupno više uzoraka i sadržaj iznad pojasa ima vremensku strukturu.
Aliasirani rezidual nije statična količina. Varira od uzorka do uzorka jer varira sadržaj iznad pojasa. A njegova varijacija je ograničena: mora biti u skladu sa signalom koji je (a) potekao iznad Nyquistove frekvencije, (b) prošao kroz filter s poznatom prijenosnom funkcijom i (c) generiran istim fizikalnim izvorom kao sadržaj unutar pojasa.
Ova ograničenja su informativna. Isključuju većinu mogućih signala iznad pojasa i ostavljaju mali podprostor kandidata u skladu s opaženim rezidualom.
Implementirali smo algoritam obnove temeljen na ograničenoj procjeni najveće vjerodostojnosti. Algoritam uzima kao ulaz: uzorkovane podatke, izmjerenu prijenosnu funkciju antialiasing filtra i statistički model odnosa između sadržaja unutar pojasa i iznad pojasa (treniran na 2.000 sati referentnih snimki od 768 kHz). Daje kao izlaz procjenu sadržaja iznad pojasa koja je maksimalno u skladu s opaženim aliasiranim rezidualom.
Točnost obnovljenog signala procijenjena je usporedbom s istinom od 768 kHz. Uzajamna informacija između obnovljene procjene i istinitog sadržaja iznad pojasa izračunana je pomoću Kozachenko-Leonenkovog estimatora.
Rezultati: algoritam obnove ekstrahirao je između 0,008 bita po uzorku (solo čembalo) i 0,31 bita po uzorku (puhači mikrofonima izbliza) uzajamne informacije s istinitim signalom iznad pojasa. Kontrolni eksperiment koristeći bijeli šum kao ulazni signal dao je 0,000 +/- 0,001 bita po uzorku, potvrđujući da je obnovljena informacija ovisna o signalu, a ne artefakt algoritma.
Za puhački ansambl, 0,31 bita po uzorku kroz 192.000 uzoraka po sekundi iznosi 59.520 bita — približno 7,3 kilobajta — informacije iznad Nyquista po sekundi, obnovljene iz signala za koji Shannonov teorem jamči da uopće ne sadrži informaciju iznad Nyquista.
Informacija postoji jer premisa ne vrijedi. Signal nije pojasno ograničen. Uzorci sadrže tragove sadržaja iznad pojasa koje Shannonov okvir tretira kao uništene. Nisu uništeni. Samo su oslabljeni, aliasirani i teško ekstraktivni. No oni su tu.
7. Potencijalni konfondi
Razmotrili smo sedam alternativnih objašnjenja za promatrane rezultate. Nijedno nije preživjelo.
1. Nelinearnost ADC-a. Nelinearni konverter mogao bi generirati spektralni sadržaj koji oponaša energiju iznad pojasa. Karakterizirali smo integralnu nelinearnost (INL) i diferencijalnu nelinearnost (DNL) AK5578 na svim radnim frekvencijama. Izmjerena INL od +/- 0,8 LSB pri 32 bita pridonosi izobličenjima pri -199 dBFS, znatno ispod opaženog reziduala. Dodatno, nelinearnost konvertera proizvela bi harmonike u fiksnim frekvencijskim odnosima prema ulaznim tonovima, a opažena energija iznad pojasa ne slijedi harmonijske obrasce.
2. Izobličenje predpojačala. Ukupno harmoničko izobličenje namjenskog predpojačala izmjereno je pri -142 dB (0,000008%) pri 1 kHz, opadajući na -151 dB pri 10 kHz. Energija iznad pojasa premašuje te razine za 40-60 dB i stoga se ne može pripisati harmonicima predpojačala.
3. Artefakti mikrofona. DPA 4006A ima dokumentirani ultrazvučni odziv koji bi mogao proizvesti intermodulacijske produkte. Ponovili smo odabrana mjerenja pomoću Bruel & Kjaer Type 4138 1/8-inčnog tlačnog mikrofona, koji ima ravan odziv do 140 kHz bez poznatih intermodulacijskih artefakata. Razine energije iznad pojasa bile su konzistentne unutar +/- 2 dB, ukazujući da energija potječe iz akustičnog polja, a ne iz mikrofona.
4. Elektromagnetske smetnje. Lokacije snimanja sadržavale su razne izvore EMI (rasvjetu, HVAC, ožičenje zgrade). Ponovili smo mjerenja u potpuno oklopljenoj RF kabini koristeći snimljeni materijal reproduciran kroz referentni zvučnik. Energija iznad pojasa bila je očuvana, potvrđujući akustično porijeklo.
5. Akustika prostorije. Visokofrekventna akustična energija mogla bi biti generirana modovima prostorije, flutter ehom ili difrakcijom na granicama prostorije. Mjerili smo i u bezehoičnoj komori i u reverberantnim lokacijama. Energija iznad pojasa bila je prisutna u oba uvjeta, iako na različitim razinama (niža u bezehoičnoj komori, kao što se očekuje za izvor mikrofonima izbliza).
6. Pristranost algoritma. Statistički model algoritma obnove treniran je na istoj vrsti podataka na kojima je evaluiran, što potencijalno omogućuje cirkularno rasuđivanje. Ponovo smo pokrenuli eksperiment pomoću modela treniranog isključivo na orkestralnom materijalu za obnovu informacije iz snimki solo instrumenata (i obratno). Obnovljena uzajamna informacija opala je za 15-20%, no ostala je statistički značajna (p < 0,01) u svim slučajevima. Nadalje smo pokrenuli algoritam na digitalno sintetiziranim signalima koji su dokazano pojasno ograničeni (generirani pri 768 kHz, digitalno filtrirani na 96 kHz, ponovno uzorkovani na 192 kHz). Algoritam je ispravno vratio 0,000 bita po uzorku obnovljive informacije, potvrđujući da ne halucinira informaciju koja nije prisutna.
7. Korelacija toplinskog šuma. Toplinski šum u analognoj signalnoj stazi mogao bi stvoriti koreliranu energiju iznad i ispod Nyquistove frekvencije. Izračunali smo teorijski doprinos toplinskog šuma od mikrofona, predpojačala i ožičenja pri 25 °C. Ukupni toplinski šum u pojasu 96-384 kHz bio je -184 dBFS, znatno ispod izmjerene energije iznad pojasa. Nadalje, toplinski šum proizveo bi nultu unakrsnu korelaciju s programskim materijalom, a izmjerili smo r > 0,93.
Nismo mogli identificirati konfundirajući faktor koji bi objasnio podatke.
8. Rasprava
Nyquist-Shannonov teorem uzorkovanja nije pogrešan. Njegov dokaz je valjan. Njegov zaključak slijedi iz njegovih premisa.
Premisa je pogrešna.
Nijedan stvarni audio signal nije pojasno ograničen u smislu kako Shannon zahtijeva. Svaki akustični događaj, svaki glazbeni instrument, svaki ljudski glas proizvodi energiju koja se proteže iznad bilo koje konačne frekvencijske granice. Antialiasing filtri smanjuju ovu energiju, ali je ne eliminiraju. Rezidualna energija iznad pojasa koja preživljava filter aliasira u uzorkovane podatke, noseći sa sobom malu, ali mjerljivu količinu informacije o izvornom signalu.
Ovaj nalaz ne ruši digitalni audio. Količine su izrazito male. Najveća uzajamna informacija koju smo obnovili — 0,31 bita po uzorku za puhački ansambl — predstavlja informacijsku stopu od približno 7,3 kilobajta po sekundi, u usporedbi s otprilike 1,1 megabajta po sekundi 192 kHz 32-bitnog audio toka. Intersamplna informacija je dodatak od 0,6% Shannon-zajamčenom sadržaju.
No postoji. A njena postojanost znači da standardna tvrdnja — „snimka od 192 kHz hvata sve informacije u analognom originalu do 96 kHz, savršeno, bez gubitka” — nije precizno istinita. Hvata sve informacije u hipotetskoj pojasno ograničenoj verziji analognog originala. Stvarni analogni original sadrži više.
Koliko više ovisi o izvornom materijalu, antialiasing filtru i brzini uzorkovanja. Naša mjerenja sugeriraju da se intersamplna informacija brzo smanjuje s povećanjem brzine uzorkovanja (prijelazni pojas antialiasing filtra sužava se u odnosu na propusni pojas, smanjujući rezidual). Pri 768 kHz, intersamplna informacija je nedetektabilna. Pri 192 kHz, mala je, ali mjerljiva. Pri 44,1 kHz — standardnoj brzini uzorkovanja CD-a, s Nyquistovom frekvencijom od 22,05 kHz — intersamplna informacija bila bi znatno veća, jer antialiasing filter mora raditi mnogo bliže audio pojasu.
Nismo mjerili pri 44,1 kHz. Taj eksperiment je u tijeku. Implikacije njegovog ishoda — kakav god bio — protežu se izvan opsega ovog rada.
Naglašavamo da ne predlažemo zamjenu za teorem uzorkovanja. Dokumentiramo mjerenje. Mjerenje pokazuje da stvarni signali sadrže informacije koje premisa teorema isključuje. Teorem je potpun za pojasno ograničene signale. Stvarni signali nisu pojasno ograničeni. Razlika između teorema i stvarnosti je mala, no nije nula, i mogli smo je izmjeriti.
9. Zaključak
Izmjerili smo spektralnu energiju 4.000 sati glazbenog materijala iznad Nyquistove frekvencije standardnog audio sustava od 192 kHz. U svakom slučaju, prisutna je bila mjerljiva energija korelirana sa signalom. Ova energija je dio izvornog akustičnog događaja i uklanja se — nesavršeno — antialiasing filtrom prije uzorkovanja.
Nesavršeno uklanjanje ostavlja aliasirani rezidual u uzorkovanim podacima. Ovaj rezidual nosi između 0,008 i 0,31 bita po uzorku uzajamne informacije s izvornim signalom iznad pojasa. Algoritam obnove temeljen na ograničenoj procjeni najveće vjerodostojnosti može ekstraktirati dio te informacije.
Ovi nalazi ne poništavaju Nyquist-Shannonov teorem uzorkovanja. Pokazuju da premisa teorema — strogo pojasno ograničenje — nije zadovoljena stvarnim audio signalima i da je rezultirajuća razlika između teorijske savršene rekonstrukcije i stvarne rekonstrukcije mjerljiva s dovoljno preciznom opremom.
Praktični značaj te razlike pitanje je za daljnje proučavanje. Količine su male. Jesu li čujne ili pridonose subjektivnim razlikama prijavljenim između brzina uzorkovanja, izvan je opsega ovog rada. Izvještavamo samo da informacija postoji, da je obnovljiva i da je teorem uzorkovanja ne uzima u obzir.