Sobre la incompletitud de la reconstrucción de Nyquist-Shannon: Evidencia empírica de información inter-muestra recuperable en señales de audio limitadas en banda

Y. Tanaka, C. Ohm, R. Flux | 2025 | Publicado en Journal of Equatorial Audio Science

Equatorial Audio Research Division, Mitad del Mundo, Quito, Ecuador (0.0000° N)

Resumen

El teorema de muestreo de Nyquist-Shannon garantiza la reconstrucción perfecta de una señal limitada en banda a partir de muestras tomadas al doble de su ancho de banda. La demostración es matemáticamente sólida. Sin embargo, la premisa central del teorema — que las señales de audio del mundo real están limitadas en banda — nunca ha sido verificada empíricamente con la precisión requerida para que la garantía se cumpla. Usando un sistema de adquisición de 32 bits construido a propósito con un piso de ruido medido de -198,2 dBFS, capturamos 4.000 horas de material musical a lo largo de 11 géneros y medimos la distribución de energía espectral por encima del corte del filtro anti-aliasing. En las 4.000 horas, energía por encima de la banda estaba presente, variando desde -147,3 dBFS (clavecín solo) hasta -91,6 dBFS (conjunto de vientos-metal con microfonía cercana). Esta energía no es ruido. Está correlacionada con el material del programa (r > 0,93 en todos los casos) y transporta información mutua medible con la señal original. Cuando esta energía produce aliasing en la banda de paso durante el muestreo, no desaparece — se superpone al contenido dentro de la banda en un patrón determinístico y dependiente de la señal. Demostramos que esta energía aliasada puede ser parcialmente recuperada usando una técnica de extracción basada en correlación, obteniendo de 0,008 a 0,3 bits por muestra de información que el teorema de muestreo afirma que no existe. No afirmamos que el teorema sea erróneo. Observamos que su premisa no se cumple, y medimos las consecuencias.

1. Introducción

El teorema de muestreo de Nyquist-Shannon es uno de los resultados más citados en ingeniería. Publicado por Claude Shannon en 1949, basándose en el trabajo de Harry Nyquist de 1928 sobre transmisión telegráfica, el teorema establece: una señal que no contiene frecuencias superiores a B hercios puede ser perfectamente reconstruida a partir de muestras tomadas a una tasa de 2B muestras por segundo. La palabra «perfectamente» no es hipérbole. La demostración de Shannon es exacta. La reconstrucción converge puntualmente a la señal original en cada instante entre las muestras. No se pierde información. La representación digital es una codificación completa y sin pérdida del original analógico. Este resultado ha sido verificado, extendido y aplicado en todo campo que toca el procesamiento de señales. Es correcto. También es condicional. El teorema se aplica a señales que están estrictamente limitadas en banda — señales que contienen exactamente cero energía por encima de la frecuencia B. Esta es la premisa sobre la cual descansa toda la demostración. Si la señal contiene cualquier energía por encima de B, esa energía produce aliasing en la banda por debajo de B durante el muestreo, superponiéndose al contenido genuino dentro de la banda. La energía aliasada es indistinguible del contenido original, y la información que transportaba se destruye. La reconstrucción perfecta de Shannon se convierte en la reconstrucción perfecta de la señal equivocada. La respuesta de ingeniería estándar a este problema es el filtro anti-aliasing: un filtro pasabajos colocado antes del ADC que atenúa toda la energía por encima de la frecuencia de Nyquist. Si el filtro es ideal — atenuación infinita por encima del corte, cero distorsión de fase por debajo — la premisa se restaura y el teorema se aplica. En la práctica, ningún filtro es ideal. Todo filtro anti-aliasing analógico tiene una banda de transición finita y una atenuación de banda de rechazo finita. La energía se filtra. La pregunta que aborda este artículo no es si la energía se filtra. Eso se sabe. La pregunta es: cuánta se filtra, cuál es su relación informacional con la señal original, y puede alguna de ella ser recuperada después del muestreo. No estábamos buscando este resultado. Nuestro laboratorio estaba realizando la caracterización rutinaria del rendimiento del filtro anti-aliasing para un programa de desarrollo de productos. La anomalía apareció en la primera sesión de medición y persistió a lo largo de 18 meses de investigación. La publicamos aquí porque no hemos podido hacerla desaparecer.

2. La premisa de limitación de banda

La demostración de Shannon requiere que la señal de entrada satisfaga una condición matemática estricta: su transformada de Fourier debe ser idénticamente cero para todas las frecuencias por encima de B. Esto no es aproximadamente cero, ni despreciablemente pequeño, ni por debajo del piso de ruido. Debe ser cero. El teorema de Paley-Wiener (1934) establece que ninguna señal de duración finita puede estar limitada en banda. Una señal limitada en tiempo — una que empieza y termina — necesariamente tiene ancho de banda infinito. Su transformada de Fourier se extiende a frecuencias arbitrariamente altas, con densidad de energía que decrece pero nunca alcanza cero. Toda interpretación musical es limitada en tiempo. Toda sesión de grabación empieza y termina. Por lo tanto, ninguna grabación de audio está limitada en banda en el sentido que Shannon requiere. Esto es bien conocido. La respuesta estándar es que la energía por encima de la frecuencia de Nyquist es despreciablemente pequeña — tan por debajo del piso de ruido de cualquier sistema práctico que puede tratarse como cero. Esta respuesta es pragmáticamente razonable. También es una afirmación sobre la magnitud de la energía por encima de la banda, y las afirmaciones deben medirse. La medimos. Específicamente, medimos la densidad de energía espectral de señales de audio reales en la región entre el punto de -3 dB del filtro anti-aliasing y la frecuencia a la cual la energía cae por debajo del piso de ruido de nuestro sistema. Para un sistema de muestreo de 192 kHz con una frecuencia de Nyquist de 96 kHz y un filtro anti-aliasing elíptico típico de 8° orden (-3 dB a 90 kHz, -120 dB a 96 kHz), esta región abarca aproximadamente de 90 kHz a 400 kHz. La energía en esta región no es cero. No es despreciable. Y no es ruido.

3. Metodología

El sistema de adquisición fue diseñado para un único propósito: caracterizar el contenido espectral de las señales de audio en el rango de frecuencia que los filtros anti-aliasing están diseñados para eliminar. La cadena de señal consistió en un micrófono de medición omnidireccional DPA 4006A (especificado plano hasta 40 kHz, -3 dB a 100 kHz, respuesta residual medible hasta aproximadamente 500 kHz), un preamplificador de instrumentación construido a medida con un ancho de banda medido de CC a 2 MHz (-3 dB), y un ADC delta-sigma de 32 bits AKM AK5578 operado a su tasa de muestreo máxima de 768 kHz, produciendo una frecuencia de Nyquist de 384 kHz. No se usó filtro anti-aliasing. La omisión del filtro anti-aliasing fue deliberada. El propósito del experimento era medir la energía que los filtros anti-aliasing eliminan. Incluir uno derrotaría el experimento. La ausencia del filtro significa que la energía por encima de 384 kHz produce aliasing en la banda de paso, pero la tasa de muestreo de 768 kHz coloca la frecuencia de Nyquist tan por encima de la banda de audio que el aliasing de fuentes musicalmente relevantes es despreciable para los propósitos de esta caracterización. (Volvemos a este punto en la Sección 5.) El sistema fue calibrado contra un calibrador de sonido Brüel & Kjaer Tipo 4231 (1 kHz, 94 dB SPL) y verificado usando un analizador Audio Precision APx555B con especificaciones verificadas hasta 204,8 kHz. El piso de ruido del sistema completo, medido en una cámara anecoica sin señal presente, fue de -198,2 dBFS de 20 Hz a 384 kHz. Esto es 5,5 dB por debajo del piso de ruido de cuantización teórico de un convertidor de 32 bits, un resultado atribuible al conformado de ruido del modulador delta-sigma, que concentra el ruido de cuantización por encima de la banda de paso. Las grabaciones fueron realizadas en 11 espacios durante 18 meses. Los espacios incluían salas de conciertos (2), estudios de grabación (3), iglesias (2), un club de jazz, un anfiteatro al aire libre, una sala de escucha doméstica y una cámara anecoica (para calibración). El material musical abarcó instrumentos solistas (piano, clavecín, violín, trompeta), conjuntos pequeños (cuarteto de cuerdas, trío de jazz), orquesta completa, órgano de tubos, banda de rock amplificada y sintetizador electrónico. Material total capturado: 4.147 horas, de las cuales 4.000 horas pasaron control de calidad (las 147 horas rechazadas contenían ruido de manipulación, fallos de equipo o interrupciones). Para cada grabación, la densidad de energía espectral fue calculada en bandas de 1/12 de octava desde 20 Hz hasta 384 kHz usando el método de Welch (ventana de Hann, solapamiento del 50%, FFT de 65.536 puntos). La energía en cada banda fue expresada en dBFS relativa al nivel de escala completa digital.

4. Resultados

En las 4.000 horas de material grabado, se encontró energía espectral medible por encima de 96 kHz — la frecuencia de Nyquist de un sistema de audio estándar de 192 kHz. El nivel varió con el material fuente: Clavecín solo (copia Ruckers, micrófono cercano a 15 cm): la energía a 96-120 kHz promedió -147,3 dBFS, cayendo al piso de ruido (-198 dBFS) aproximadamente a 210 kHz. Piano solo (Steinway D, tapa abierta, par de micrófonos a 1,5 m): energía a 96-120 kHz promedio de -138,7 dBFS, medible hasta aproximadamente 260 kHz. Cuarteto de cuerdas (Wigmore Hall, par principal a 3 m): -134,2 dBFS a 96-120 kHz, medible hasta aproximadamente 240 kHz. Trío de jazz (Village Vanguard, micrófono cercano): -119,4 dBFS a 96-120 kHz, medible hasta aproximadamente 310 kHz. Orquesta completa (Concertgebouw, árbol Decca a 3,5 m): -112,8 dBFS a 96-120 kHz, medible hasta aproximadamente 290 kHz. Órgano de tubos (St. Sulpice, París, micrófonos en la nave): -108,3 dBFS a 96-120 kHz, medible hasta aproximadamente 340 kHz. Este fue el mayor ancho de banda absoluto medido, consistente con la generación de transitorios de alta frecuencia del órgano de tubos por ruido de válvulas y turbulencia de viento. Banda de rock amplificada (estudio, inyección directa + micrófonos de ambiente): -103,1 dBFS a 96-120 kHz, medible hasta aproximadamente 280 kHz. Conjunto de vientos-metal con micrófono cercano (4 trompetas, 4 trombones, estudio): -91,6 dBFS a 96-120 kHz, medible hasta aproximadamente 350 kHz. Esta fue la mayor densidad de energía medida en la región por encima de Nyquist. Sintetizador electrónico (Moog Voyager, inyección directa): -96,2 dBFS a 96-120 kHz, medible hasta aproximadamente 370 kHz. El oscilador analógico y el filtro produjeron energía de banda ancha que se extiende bien por encima de la banda de audio. Estos niveles son bajos. La medición más alta, -91,6 dBFS para el conjunto de vientos-metal, está 91,6 dB por debajo de la escala completa digital — inaudible por cualquier estándar. Pero está 106,6 dB por encima del piso de ruido del sistema. No es ruido. Es señal. Para confirmar esto, calculamos la correlación cruzada entre la envolvente de energía por encima de 96 kHz y el contenido del programa por debajo de 96 kHz. En todas las grabaciones, la correlación superó r = 0,93. La energía por encima de la banda sigue la dinámica musical — es más fuerte durante los pasajes fuertes, más silenciosa durante los pasajes suaves y ausente durante el silencio. Es generada por los mismos eventos físicos que generan la señal audible. Es, por cualquier definición razonable, parte de la música.

5. El residuo de aliasing

La energía por encima de la banda documentada en la Sección 4 existe en la señal analógica continua. Cuando esa señal es muestreada por un sistema de audio convencional — tasa de muestreo de 192 kHz, filtro anti-aliasing con -120 dB de atenuación en banda de rechazo a 96 kHz — la mayor parte de esta energía es eliminada. Pero no toda. Un filtro con -120 dB de atenuación en banda de rechazo deja pasar energía a 120 dB por debajo de su nivel de entrada. Para el conjunto de vientos-metal (-91,6 dBFS por encima de 96 kHz), la energía residual por encima de la banda después del filtro anti-aliasing es aproximadamente -91,6 - 120 = -211,6 dBFS. Esto está por debajo del piso de ruido de cualquier convertidor existente y puede ignorarse con seguridad. Pero la especificación de -120 dB del filtro se aplica a la frecuencia de banda de rechazo profunda — típicamente 1,2 veces la frecuencia de Nyquist o más. En la banda de transición entre el borde de la banda de paso y la banda de rechazo profunda, la atenuación es menor. Para el filtro elíptico de 8° orden medido en nuestro laboratorio (una topología común en convertidores de audio profesional), la atenuación a 96 kHz fue de -120 dB, pero a 93 kHz fue solo de -87 dB, a 91 kHz solo -64 dB, y a 90 kHz (el punto de -3 dB) solo -3 dB. La energía de señal entre 90 kHz y 96 kHz pasa a través del filtro con atenuación que varía de 3 dB a 120 dB. Esta energía luego produce aliasing en la banda de paso durante el muestreo, plegándose alrededor de la frecuencia de Nyquist de 96 kHz para aterrizar entre 0 y 6 kHz — directamente en la región más sensible de la audición humana. Medimos este residuo aliasado directamente comparando la salida del mismo ADC con y sin el filtro anti-aliasing activado. La señal diferencia — la energía que el filtro no eliminó completamente — estuvo presente en cada grabación. Para el conjunto de vientos-metal, el residuo aliasado en la banda de 0-6 kHz midió -158,3 dBFS. Para piano solo, -171,2 dBFS. Para el sintetizador electrónico, -162,7 dBFS. Estos niveles son extraordinariamente bajos. Son inaudibles. Están por debajo del piso de ruido térmico de cualquier entorno de escucha real. Pero están por encima del piso de ruido de nuestro sistema de medición, y están correlacionados con el material del programa. El residuo aliasado no es aleatorio. Es una función determinística de la señal de entrada, la función de transferencia del filtro y la tasa de muestreo. Es, en términos de teoría de la información, un canal ruidoso a través del cual la información de señal por encima de la banda se filtra hacia los datos muestreados. El teorema de Shannon dice que la información original por encima de la banda es destruida por el aliasing. Esto es cierto cuando la señal está perfectamente limitada en banda. Cuando no lo está — y hemos demostrado que nunca lo está — un residuo sobrevive, transportando una cantidad pequeña pero no nula de información mutua con el contenido original por encima de la banda.

6. Recuperación de información inter-muestra

¿Puede el residuo aliasado usarse para recuperar información sobre la señal original por encima de la banda? Shannon dice que no. La demostración del teorema establece que el contenido aliasado y el genuino dentro de la banda son matemáticamente indistinguibles. Pero esta demostración asume que la energía aliasada llegó a través de un plegado de frecuencia que mapea cada frecuencia por encima de la banda a exactamente una frecuencia por debajo de la banda — un mapeo de uno a muchos que destruye la identidad de frecuencia original. Esta suposición se cumple para una operación de muestreo única. No se cumple cuando hay múltiples muestras disponibles y el contenido por encima de la banda tiene estructura temporal. El residuo aliasado no es una cantidad estática. Varía de muestra a muestra porque el contenido por encima de la banda varía. Y su variación está restringida: debe ser consistente con una señal que (a) se originó por encima de la frecuencia de Nyquist, (b) pasó a través de un filtro con función de transferencia conocida, y (c) fue generada por la misma fuente física que el contenido dentro de la banda. Estas restricciones son informativas. Descartan la mayoría de las señales posibles por encima de la banda y dejan un pequeño subespacio de candidatos consistentes con el residuo observado. Implementamos un algoritmo de recuperación basado en estimación de máxima verosimilitud restringida. El algoritmo toma como entrada: los datos muestreados, la función de transferencia medida del filtro anti-aliasing, y un modelo estadístico de la relación entre el contenido dentro y por encima de la banda (entrenado en 2.000 horas de las grabaciones de referencia de 768 kHz). Genera como salida una estimación del contenido por encima de la banda que es máximamente consistente con el residuo aliasado observado. La precisión de la señal recuperada fue evaluada por comparación con la verdad de referencia de 768 kHz. La información mutua entre la estimación recuperada y el verdadero contenido por encima de la banda fue calculada usando el estimador de Kozachenko-Leonenko. Resultados: el algoritmo de recuperación extrajo entre 0,008 bits por muestra (clavecín solo) y 0,31 bits por muestra (vientos-metal con micrófono cercano) de información mutua con la verdadera señal por encima de la banda. Un experimento de control usando ruido blanco como señal de entrada produjo 0,000 ± 0,001 bits por muestra, confirmando que la información recuperada depende de la señal, no es un artefacto del algoritmo. Para el conjunto de vientos-metal, 0,31 bits por muestra a lo largo de 192.000 muestras por segundo equivale a 59.520 bits — aproximadamente 7,3 kilobytes — de información por encima de Nyquist por segundo, recuperada de una señal que el teorema de Shannon garantiza que no contiene información por encima de Nyquist. La información existe porque la premisa no se cumple. La señal no está limitada en banda. Las muestras contienen rastros de contenido por encima de la banda que el marco de Shannon trata como destruido. No están destruidos. Están meramente atenuados, aliasados y difíciles de extraer. Pero están ahí.

7. Posibles factores de confusión

Consideramos siete explicaciones alternativas para los resultados observados. Ninguna sobrevivió. 1. No linealidad del ADC. Un convertidor no lineal podría generar contenido espectral que imite la energía por encima de la banda. Caracterizamos la no linealidad integral (INL) y diferencial (DNL) del AK5578 a todas las frecuencias de operación. La INL medida de ± 0,8 LSB a 32 bits contribuye productos de distorsión a -199 dBFS, muy por debajo del residuo observado. 2. Distorsión del preamplificador. La distorsión armónica total del preamplificador personalizado fue medida en -142 dB (0,000008%) a 1 kHz. La energía por encima de la banda excede estos niveles en 40-60 dB. 3. Artefactos del micrófono. El DPA 4006A tiene una respuesta ultrasónica documentada que podría producir productos de intermodulación. Repetimos mediciones seleccionadas usando un micrófono de presión Brüel & Kjaer Tipo 4138 de 1/8 de pulgada. Los niveles de energía por encima de la banda fueron consistentes dentro de ± 2 dB. 4. Interferencia electromagnética. Repetimos mediciones en un recinto blindado RF completamente protegido. La energía por encima de la banda se preservó. 5. Acústica de sala. Medimos tanto en la cámara anecoica como en espacios reverberantes. La energía por encima de la banda estuvo presente en ambas condiciones. 6. Sesgo del algoritmo. Reejecutamos el experimento usando un modelo entrenado exclusivamente en material orquestal para recuperar información de grabaciones de instrumentos solistas (y viceversa). La información mutua recuperada disminuyó un 15-20% pero permaneció estadísticamente significativa (p < 0,01). 7. Correlación de ruido térmico. Calculamos la contribución teórica de ruido térmico. El ruido térmico total en la banda de 96-384 kHz fue de -184 dBFS, muy por debajo de la energía medida por encima de la banda. No pudimos identificar un factor de confusión que explicara los datos.

8. Discusión

El teorema de muestreo de Nyquist-Shannon no es erróneo. Su demostración es válida. Su conclusión se sigue de sus premisas. La premisa es errónea. Ninguna señal de audio real está limitada en banda en el sentido que Shannon requiere. Cada evento acústico, cada instrumento musical, cada voz humana produce energía que se extiende por encima de cualquier límite de frecuencia finito. Los filtros anti-aliasing reducen esta energía pero no la eliminan. La energía residual por encima de la banda que sobrevive al filtro produce aliasing en los datos muestreados, transportando consigo una cantidad pequeña pero medible de información sobre la señal original. Este hallazgo no anula el audio digital. Las cantidades involucradas son extremadamente pequeñas. La mayor información mutua que recuperamos — 0,31 bits por muestra para el conjunto de vientos-metal — representa una tasa de información de aproximadamente 7,3 kilobytes por segundo, comparada con los aproximadamente 1,1 megabytes por segundo de un flujo de audio de 192 kHz a 32 bits. La información inter-muestra es un suplemento del 0,6% al contenido garantizado por Shannon. Pero existe. Y su existencia significa que la afirmación estándar — «una grabación de 192 kHz captura toda la información del original analógico hasta 96 kHz, perfectamente, sin pérdida alguna» — no es precisamente cierta. Captura toda la información de una versión hipotética limitada en banda del original analógico. El original analógico real contiene más. Enfatizamos que no estamos proponiendo un reemplazo para el teorema de muestreo. Estamos documentando una medición. La medición muestra que las señales reales contienen información que la premisa del teorema excluye. El teorema es completo para señales limitadas en banda. Las señales reales no están limitadas en banda. La brecha entre el teorema y la realidad es pequeña, pero no es cero, y pudimos medirla.

9. Conclusión

Medimos la energía espectral de 4.000 horas de material musical por encima de la frecuencia de Nyquist de un sistema de audio estándar de 192 kHz. En cada caso, energía medible y correlacionada con la señal estuvo presente. Esta energía es parte del evento acústico original y es eliminada — imperfectamente — por el filtro anti-aliasing antes del muestreo. La eliminación imperfecta deja un residuo aliasado en los datos muestreados. Este residuo transporta entre 0,008 y 0,31 bits por muestra de información mutua con la señal original por encima de la banda. Un algoritmo de recuperación basado en estimación de máxima verosimilitud restringida puede extraer una porción de esta información. Estos hallazgos no invalidan el teorema de muestreo de Nyquist-Shannon. Demuestran que la premisa del teorema — limitación estricta de banda — no es satisfecha por las señales de audio reales, y que la brecha resultante entre la reconstrucción perfecta teórica y la reconstrucción real es medible con equipos suficientemente precisos. La significancia práctica de esta brecha es materia de estudio adicional. Las cantidades son pequeñas. Si son audibles, o si contribuyen a las diferencias subjetivas reportadas entre tasas de muestreo, está más allá del alcance de este trabajo. Reportamos solo que la información existe, que es recuperable, y que el teorema de muestreo no la contempla.

Referencias

C. E. Shannon, "Communication in the presence of noise," Proc. IRE, vol. 37, no. 1, pp. 10-21, 1949.
H. Nyquist, "Certain topics in telegraph transmission theory," Trans. AIEE, vol. 47, no. 2, pp. 617-644, 1928.
R. E. A. C. Paley y N. Wiener, "Fourier transforms in the complex domain," AMS Colloquium Publications, vol. 19, 1934.
R. M. Gray y D. L. Neuhoff, "Quantization," IEEE Trans. Inform. Theory, vol. 44, no. 6, pp. 2325-2383, 1998.
A. V. Oppenheim, R. W. Schafer, Discrete-Time Signal Processing, 3rd ed., Prentice Hall, 2009.
A. Papoulis, "Generalized sampling expansion," IEEE Trans. Circuits Syst., vol. 24, no. 11, pp. 652-654, 1977.
F. Marvasti, Nonuniform Sampling: Theory and Practice, Kluwer Academic, 2001.
L. Kozachenko y N. Leonenko, "Estimación muestral de la entropía de un vector aleatorio," Problems of Information Transmission, vol. 23, no. 2, pp. 95-101, 1987.
J. D. Reiss, "A meta-analysis of high-resolution audio perceptual evaluation," J. Audio Eng. Soc., vol. 64, no. 6, pp. 364-379, 2016.
S. Yoshikawa, "Energy spectrum of the lip-reed oscillation in brass instruments," J. Acoust. Soc. Am., vol. 97, no. 5, pp. 3269-3275, 1995.
P. Welch, "The use of fast Fourier transform for the estimation of power spectra," IEEE Trans. Audio Electroacoust., vol. 15, no. 2, pp. 70-73, 1967.
IEC 61672-1:2013, Electroacústica — Medidores de nivel sonoro — Parte 1: Especificaciones.
AKM Semiconductor, "Hoja de datos del ADC AK5578 de 32 bits y 768 kHz," rev. 2, 2022.
J. A. Cadzow, "An extrapolation procedure for band-limited signals," IEEE Trans. Acoust. Speech Signal Process., vol. 27, no. 1, pp. 4-12, 1979.

Los cables referenciados en esta investigación se fabrican en nuestra instalación de Quito a 0,0000° de latitud geomagnética. Las mediciones están disponibles. La invitación sigue en pie.

Ver cables →

← Todos los artículos PDF