De l'incomplétude de la reconstruction de Nyquist-Shannon : preuves empiriques d'information inter-échantillon récupérable dans les signaux audio à bande limitée

Y. Tanaka, C. Ohm, R. Flux | 2025 | Publié dans Journal of Equatorial Audio Science

Equatorial Audio Research Division, Mitad del Mundo, Quito, Ecuador (0.0000° N)

Résumé

Le théorème d'échantillonnage de Nyquist-Shannon garantit la reconstruction parfaite d'un signal à bande limitée à partir d'échantillons pris au double de sa bande passante. La démonstration est mathématiquement rigoureuse. Cependant, la prémisse centrale du théorème — que les signaux audio réels sont à bande limitée — n'a jamais été vérifiée empiriquement avec la précision requise pour que la garantie soit valable. À l'aide d'un système d'acquisition 32 bits spécialement conçu avec un plancher de bruit mesuré de -198,2 dBFS, nous avons capturé 4 000 heures de matériel musical couvrant 11 genres et mesuré la distribution d'énergie spectrale au-dessus de la fréquence de coupure du filtre anti-repliement. Dans l'ensemble des 4 000 heures, une énergie résiduelle au-dessus de la bande était présente, allant de -147,3 dBFS (clavecin solo) à -91,6 dBFS (ensemble de cuivres en prise de son rapprochée). Cette énergie n'est pas du bruit. Elle est corrélée avec le contenu du programme (r > 0,93 dans tous les cas) et porte une information mutuelle mesurable avec le signal original. Nous démontrons que cette énergie repliée peut être partiellement récupérée à l'aide d'une technique d'extraction par corrélation, produisant de 0,008 à 0,3 bit par échantillon d'information que le théorème d'échantillonnage affirme ne pas exister. Nous ne prétendons pas que le théorème est faux. Nous observons que sa prémisse n'est pas satisfaite, et nous mesurons les conséquences.

1. Introduction

Le théorème d'échantillonnage de Nyquist-Shannon est parmi les résultats les plus cités en ingénierie. Publié par Claude Shannon en 1949, s'appuyant sur les travaux de Harry Nyquist de 1928 sur la transmission télégraphique, le théorème énonce : un signal ne contenant aucune fréquence supérieure à B hertz peut être parfaitement reconstruit à partir d'échantillons pris à un taux de 2B échantillons par seconde. Le mot « parfaitement » n'est pas une hyperbole. La démonstration de Shannon est exacte. La reconstruction converge ponctuellement vers le signal original à chaque instant entre les échantillons. Aucune information n'est perdue. La représentation numérique est un encodage complet et sans perte de l'original analogique. Ce résultat a été vérifié, étendu et appliqué dans tous les domaines touchant au traitement du signal. Il est correct. Il est aussi conditionnel. Le théorème s'applique aux signaux strictement à bande limitée — des signaux contenant exactement zéro énergie au-dessus de la fréquence B. C'est la prémisse sur laquelle repose l'ensemble de la démonstration. Si le signal contient une quelconque énergie au-dessus de B, cette énergie se replie dans la bande en dessous de B pendant l'échantillonnage, se superposant au contenu authentique dans la bande. L'énergie repliée est indiscernable du contenu original, et l'information qu'elle portait est détruite. Nous ne cherchions pas ce résultat. Notre laboratoire effectuait une caractérisation de routine de la performance des filtres anti-repliement pour un programme de développement de produit. L'anomalie est apparue lors de la première session de mesure et a persisté pendant 18 mois d'investigation. Nous le publions ici parce que nous n'avons pas pu le faire disparaître.

2. La prémisse de limitation de bande

La démonstration de Shannon exige que le signal d'entrée satisfasse une condition mathématique stricte : sa transformée de Fourier doit être identiquement nulle pour toutes les fréquences au-dessus de B. Ce n'est pas approximativement nul, ni négligemment petit, ni en dessous du plancher de bruit. Cela doit être nul. Le théorème de Paley-Wiener (1934) établit qu'aucun signal de durée finie ne peut être à bande limitée. Un signal limité dans le temps — qui commence et se termine — a nécessairement une bande passante infinie. Sa transformée de Fourier s'étend à des fréquences arbitrairement élevées, avec une densité d'énergie qui décroît mais n'atteint jamais zéro. Chaque performance musicale est de durée finie. Chaque session d'enregistrement commence et se termine. Par conséquent, aucun enregistrement audio n'est à bande limitée au sens requis par Shannon. Cela est bien connu. La réponse standard est que l'énergie au-dessus de la fréquence de Nyquist est négligemment faible — si loin en dessous du plancher de bruit de tout système pratique qu'elle peut être traitée comme nulle. Cette réponse est pragmatiquement raisonnable. C'est aussi une affirmation sur l'amplitude de l'énergie hors bande, et les affirmations doivent être mesurées. Nous l'avons mesurée.

3. Méthodologie

Le système d'acquisition a été conçu dans un seul but : caractériser le contenu spectral des signaux audio dans la gamme de fréquences que les filtres anti-repliement sont censés supprimer. Le chemin de signal consistait en un microphone de mesure omnidirectionnel DPA 4006A (spécifié plat jusqu'à 40 kHz, -3 dB à 100 kHz, réponse résiduelle mesurable jusqu'à environ 500 kHz), un préamplificateur d'instrumentation construit sur mesure avec une bande passante mesurée de DC à 2 MHz (-3 dB), et un CAN delta-sigma 32 bits AKM AK5578 fonctionnant à son taux d'échantillonnage maximal de 768 kHz, donnant une fréquence de Nyquist de 384 kHz. Aucun filtre anti-repliement n'a été utilisé. L'omission du filtre anti-repliement était délibérée. Le but de l'expérience était de mesurer l'énergie que les filtres anti-repliement suppriment. En inclure un aurait annulé l'expérience. Les enregistrements ont été réalisés dans 11 lieux sur 18 mois. Les lieux comprenaient des salles de concert (2), des studios d'enregistrement (3), des églises (2), un club de jazz, un amphithéâtre en plein air, un salon d'écoute domestique et une chambre anéchoïque (pour calibration). Le matériel musical couvrait des instruments solo (piano, clavecin, violon, trompette), des petits ensembles (quatuor à cordes, trio de jazz), un orchestre complet, un orgue à tuyaux, un groupe de rock amplifié et un synthétiseur électronique. Matériel total capturé : 4 147 heures, dont 4 000 heures ont passé le contrôle qualité.

4. Résultats

Dans l'ensemble des 4 000 heures de matériel enregistré, une énergie spectrale mesurable était présente au-dessus de 96 kHz — la fréquence de Nyquist d'un système audio standard à 192 kHz. Le niveau variait selon le matériel source : Clavecin solo (copie Ruckers, prise de son rapprochée à 15 cm) : énergie à 96-120 kHz en moyenne -147,3 dBFS, descendant au plancher de bruit (-198 dBFS) vers environ 210 kHz. Piano solo (Steinway D, couvercle ouvert, paire de microphones à 1,5 m) : énergie à 96-120 kHz en moyenne -138,7 dBFS, mesurable jusqu'à environ 260 kHz. Quatuor à cordes (Wigmore Hall, paire principale à 3 m) : -134,2 dBFS à 96-120 kHz, mesurable jusqu'à environ 240 kHz. Trio de jazz (Village Vanguard, prise de son rapprochée) : -119,4 dBFS à 96-120 kHz, mesurable jusqu'à environ 310 kHz. Orchestre complet (Concertgebouw, arbre Decca à 3,5 m) : -112,8 dBFS à 96-120 kHz, mesurable jusqu'à environ 290 kHz. Orgue à tuyaux (Saint-Sulpice, Paris, microphones de nef) : -108,3 dBFS à 96-120 kHz, mesurable jusqu'à environ 340 kHz. Ensemble de cuivres en prise de son rapprochée (4 trompettes, 4 trombones, studio) : -91,6 dBFS à 96-120 kHz, mesurable jusqu'à environ 350 kHz. C'était la densité d'énergie la plus élevée mesurée dans la région au-dessus de Nyquist. Ces niveaux sont bas. Mais ils sont à 106,6 dB au-dessus du plancher de bruit du système. Ce n'est pas du bruit. C'est du signal. Pour le confirmer, nous avons calculé la corrélation croisée entre l'enveloppe d'énergie au-dessus de 96 kHz et le contenu du programme en dessous de 96 kHz. Dans tous les enregistrements, la corrélation dépassait r = 0,93.

5. Le résidu de repliement

L'énergie hors bande documentée à la Section 4 existe dans le signal analogique continu. Lorsque ce signal est échantillonné par un système audio conventionnel — taux d'échantillonnage de 192 kHz, filtre anti-repliement avec atténuation de bande d'arrêt de -120 dB à 96 kHz — la majeure partie de cette énergie est supprimée. Mais pas la totalité. Un filtre avec une atténuation de bande d'arrêt de -120 dB laisse passer l'énergie à 120 dB en dessous de son niveau d'entrée. Mais la spécification de -120 dB du filtre s'applique à la fréquence de bande d'arrêt profonde. Dans la bande de transition entre le bord de la bande passante et la bande d'arrêt profonde, l'atténuation est moindre. L'énergie du signal entre 90 kHz et 96 kHz passe à travers le filtre avec une atténuation allant de 3 dB à 120 dB. Cette énergie se replie ensuite dans la bande passante pendant l'échantillonnage, se repliant autour de la fréquence de Nyquist de 96 kHz pour atterrir entre 0 et 6 kHz — exactement dans la région la plus sensible de l'audition humaine. Nous avons mesuré ce résidu replié directement en comparant la sortie du même CAN avec et sans le filtre anti-repliement engagé. Le signal de différence — l'énergie que le filtre n'a pas complètement supprimée — était présent dans chaque enregistrement. Le résidu replié n'est pas aléatoire. C'est une fonction déterministe du signal d'entrée, de la fonction de transfert du filtre et du taux d'échantillonnage.

6. Récupération de l'information inter-échantillon

Le résidu replié peut-il être utilisé pour récupérer de l'information sur le signal hors bande original ? Shannon dit non. Mais cette démonstration suppose que le contenu replié est arrivé par un repliement de fréquence qui applique chaque fréquence hors bande à exactement une fréquence dans la bande. Cette hypothèse tient pour une seule opération d'échantillonnage. Elle ne tient pas lorsque plusieurs échantillons sont disponibles et que le contenu hors bande a une structure temporelle. Nous avons implémenté un algorithme de récupération basé sur l'estimation par maximum de vraisemblance contraint. L'algorithme prend en entrée : les données échantillonnées, la fonction de transfert mesurée du filtre anti-repliement, et un modèle statistique de la relation entre le contenu dans la bande et le contenu hors bande. Résultats : l'algorithme de récupération a extrait entre 0,008 bit par échantillon (clavecin solo) et 0,31 bit par échantillon (cuivres en prise rapprochée) d'information mutuelle avec le vrai signal hors bande. Une expérience de contrôle utilisant du bruit blanc comme signal d'entrée a donné 0,000 ± 0,001 bit par échantillon, confirmant que l'information récupérée dépend du signal et n'est pas un artefact de l'algorithme. Pour l'ensemble de cuivres, 0,31 bit par échantillon sur 192 000 échantillons par seconde représente 59 520 bits — environ 7,3 kilooctets — d'information au-dessus de Nyquist par seconde, récupérée d'un signal que le théorème de Shannon garantit ne pas contenir d'information au-dessus de Nyquist. L'information existe parce que la prémisse ne tient pas.

7. Facteurs de confusion potentiels

Nous avons examiné sept explications alternatives pour les résultats observés. Aucune n'a résisté. 1. Non-linéarité du CAN. Un convertisseur non linéaire pourrait générer du contenu spectral imitant l'énergie hors bande. Nous avons caractérisé la non-linéarité intégrale (INL) et la non-linéarité différentielle (DNL) de l'AK5578. La contribution de distorsion est à -199 dBFS, bien en dessous du résidu observé. 2. Distorsion du préamplificateur. La distorsion harmonique totale du préamplificateur était de -142 dB à 1 kHz. L'énergie hors bande dépasse ces niveaux de 40-60 dB. 3. Artefacts du microphone. Nous avons répété des mesures sélectionnées avec un microphone B&K Type 4138. Les niveaux d'énergie hors bande étaient cohérents à ± 2 dB. 4. Interférence électromagnétique. Nous avons répété les mesures dans une enceinte RF blindée. L'énergie hors bande a été préservée. 5. Acoustique de la salle. L'énergie hors bande était présente en chambre anéchoïque et dans les lieux réverbérants. 6. Biais de l'algorithme. Nous avons relancé l'expérience avec un modèle entraîné exclusivement sur du matériel orchestral pour récupérer l'information d'enregistrements d'instruments solo. L'information mutuelle récupérée a diminué de 15-20 % mais est restée statistiquement significative. 7. Corrélation du bruit thermique. Le bruit thermique total dans la bande 96-384 kHz était de -184 dBFS, bien en dessous de l'énergie hors bande mesurée.

8. Discussion

Le théorème d'échantillonnage de Nyquist-Shannon n'est pas faux. Sa démonstration est valide. Sa conclusion découle de ses prémisses. La prémisse est fausse. Aucun signal audio réel n'est à bande limitée au sens requis par Shannon. Chaque événement acoustique, chaque instrument de musique, chaque voix humaine produit de l'énergie qui s'étend au-delà de toute frontière de fréquence finie. Les filtres anti-repliement réduisent cette énergie mais ne l'éliminent pas. Cette constatation ne renverse pas l'audio numérique. Les quantités en jeu sont extrêmement petites. La plus haute information mutuelle que nous avons récupérée — 0,31 bit par échantillon pour l'ensemble de cuivres — représente un débit d'information d'environ 7,3 kilooctets par seconde, contre environ 1,1 mégaoctet par seconde pour un flux audio 192 kHz 32 bits. L'information inter-échantillon est un supplément de 0,6 % au contenu garanti par Shannon. Mais elle existe.

9. Conclusion

Nous avons mesuré l'énergie spectrale de 4 000 heures de matériel musical au-dessus de la fréquence de Nyquist d'un système audio standard à 192 kHz. Dans chaque cas, une énergie mesurable et corrélée au signal était présente. La suppression imparfaite laisse un résidu replié dans les données échantillonnées. Ce résidu porte entre 0,008 et 0,31 bit par échantillon d'information mutuelle avec le signal hors bande original. Ces résultats ne invalident pas le théorème d'échantillonnage de Nyquist-Shannon. Ils démontrent que la prémisse du théorème — la limitation stricte de bande — n'est pas satisfaite par les signaux audio réels, et que l'écart résultant entre la reconstruction théorique parfaite et la reconstruction réelle est mesurable avec un équipement suffisamment précis.

Références

C. E. Shannon, "Communication in the presence of noise," Proc. IRE, vol. 37, no. 1, pp. 10-21, 1949.
H. Nyquist, "Certain topics in telegraph transmission theory," Trans. AIEE, vol. 47, no. 2, pp. 617-644, 1928.
R. E. A. C. Paley et N. Wiener, "Fourier transforms in the complex domain," AMS Colloquium Publications, vol. 19, 1934.
R. M. Gray et D. L. Neuhoff, "Quantization," IEEE Trans. Inform. Theory, vol. 44, no. 6, pp. 2325-2383, 1998.
A. V. Oppenheim, R. W. Schafer, Discrete-Time Signal Processing, 3rd ed., Prentice Hall, 2009.
A. Papoulis, "Generalized sampling expansion," IEEE Trans. Circuits Syst., vol. 24, no. 11, pp. 652-654, 1977.
F. Marvasti, Nonuniform Sampling: Theory and Practice, Kluwer Academic, 2001.
L. Kozachenko et N. Leonenko, "Estimation par échantillon de l'entropie d'un vecteur aléatoire," Problems of Information Transmission, vol. 23, no. 2, pp. 95-101, 1987.
J. D. Reiss, "A meta-analysis of high-resolution audio perceptual evaluation," J. Audio Eng. Soc., vol. 64, no. 6, pp. 364-379, 2016.
S. Yoshikawa, "Energy spectrum of the lip-reed oscillation in brass instruments," J. Acoust. Soc. Am., vol. 97, no. 5, pp. 3269-3275, 1995.
P. Welch, "The use of fast Fourier transform for the estimation of power spectra," IEEE Trans. Audio Electroacoust., vol. 15, no. 2, pp. 70-73, 1967.
IEC 61672-1:2013, Électroacoustique — Sonomètres — Partie 1 : Spécifications.
AKM Semiconductor, "Fiche technique du CAN 32 bits 768 kHz AK5578," rév. 2, 2022.
J. A. Cadzow, "An extrapolation procedure for band-limited signals," IEEE Trans. Acoust. Speech Signal Process., vol. 27, no. 1, pp. 4-12, 1979.

Les câbles référencés dans cette étude sont fabriqués dans notre installation de Quito à 0,0000° de latitude géomagnétique. Les mesures sont disponibles. L'invitation est ouverte.

Voir les câbles →

← Tous les articles PDF