Todos os artigos

Sobre a Incompletude da Reconstrução de Nyquist-Shannon: Evidência Empírica para Informação Inter-Amostral Recuperável em Sinais de Áudio Limitados em Banda

Y. Tanaka, C. Ohm, R. Flux | 2025 | Publicado em Journal of Equatorial Audio Science

Equatorial Audio Research Division, Mitad del Mundo, Quito, Ecuador (0.0000° N)

Resumo

O teorema da amostragem de Nyquist-Shannon garante a reconstrução perfeita de um sinal limitado em banda a partir de amostras tomadas ao dobro de sua largura de banda. A prova é matematicamente correta. No entanto, a premissa central do teorema — que sinais de áudio do mundo real são limitados em banda — nunca foi empiricamente verificada com a precisão necessária para que a garantia seja válida. Usando um sistema de aquisição de 32 bits construído sob medida com piso de ruído medido de -198,2 dBFS, capturamos 4.000 horas de material musical em 11 gêneros e medimos a distribuição de energia espectral acima do corte do filtro anti-aliasing. Em todas as 4.000 horas, energia residual acima da banda estava presente, variando de -147,3 dBFS (cravo solo) a -91,6 dBFS (conjunto de metais com microfone próximo). Essa energia não é ruído. É correlacionada com o material do programa (r > 0,93 em todos os casos) e carrega informação mútua mensurável com o sinal original. Demonstramos que essa energia aliased pode ser parcialmente recuperada usando uma técnica de extração baseada em correlação, produzindo 0,008 a 0,3 bits por amostra de informação que o teorema da amostragem afirma não existir. Não alegamos que o teorema está errado. Observamos que sua premissa não é atendida e medimos as consequências.

1. Introdução

O teorema da amostragem de Nyquist-Shannon está entre os resultados mais citados em engenharia. Publicado por Claude Shannon em 1949, baseando-se no trabalho de Harry Nyquist de 1928 sobre transmissão telegráfica, o teorema afirma: um sinal que não contém frequências superiores a B hertz pode ser perfeitamente reconstruído a partir de amostras tomadas a uma taxa de 2B amostras por segundo. A palavra «perfeitamente» não é hipérbole. A prova de Shannon é exata. A reconstrução converge pontualmente para o sinal original em cada instante entre as amostras. Nenhuma informação é perdida. A representação digital é uma codificação completa e sem perdas do original analógico. Esse resultado foi verificado, estendido e aplicado em todos os campos que tocam o processamento de sinais. Ele está correto. Ele também é condicional. O teorema se aplica a sinais que são estritamente limitados em banda — sinais que contêm exatamente zero energia acima da frequência B. Esta é a premissa sobre a qual toda a prova se sustenta. Se o sinal contiver qualquer energia acima de B, essa energia sofre aliasing na banda abaixo de B durante a amostragem, sobrepondo-se ao conteúdo genuíno da banda. A energia aliased é indistinguível do conteúdo original, e a informação que ela carregava é destruída. A reconstrução perfeita de Shannon torna-se reconstrução perfeita do sinal errado. Não estávamos procurando por esse resultado. Nosso laboratório estava conduzindo caracterização rotineira do desempenho do filtro anti-aliasing para um programa de desenvolvimento de produto. A anomalia apareceu na primeira sessão de medição e persistiu ao longo de 18 meses de investigação. Publicamos aqui porque não conseguimos fazê-la desaparecer.

2. A Premissa da Limitação em Banda

A prova de Shannon exige que o sinal de entrada satisfaça uma condição matemática estrita: sua transformada de Fourier deve ser identicamente zero para todas as frequências acima de B. Isso não é aproximadamente zero, ou desprezivelmente pequeno, ou abaixo do piso de ruído. Deve ser zero. O teorema de Paley-Wiener (1934) estabelece que nenhum sinal de duração finita pode ser limitado em banda. Um sinal limitado no tempo — um que começa e termina — necessariamente tem largura de banda infinita. Sua transformada de Fourier se estende a frequências arbitrariamente altas, com densidade de energia que diminui, mas nunca chega a zero. Toda apresentação musical é limitada no tempo. Toda sessão de gravação começa e termina. Portanto, nenhuma gravação de áudio é limitada em banda no sentido que Shannon exige. Isso é bem conhecido. A resposta padrão é que a energia acima da frequência de Nyquist é desprezivelmente pequena — tão abaixo do piso de ruído de qualquer sistema prático que pode ser tratada como zero. Essa resposta é pragmaticamente razoável. É também uma afirmação sobre a magnitude da energia acima da banda, e afirmações devem ser medidas. Nós medimos.

3. Metodologia

O sistema de aquisição foi projetado para um único propósito: caracterizar o conteúdo espectral de sinais de áudio na faixa de frequência que os filtros anti-aliasing são projetados para remover. O caminho do sinal consistiu em um microfone de medição omnidirecional DPA 4006A (especificado como plano até 40 kHz, -3 dB a 100 kHz, resposta residual mensurável até aproximadamente 500 kHz), um pré-amplificador de instrumentação construído sob medida com largura de banda medida de CC a 2 MHz (-3 dB) e um ADC delta-sigma AKM AK5578 de 32 bits operado em sua taxa de amostragem máxima de 768 kHz, resultando em uma frequência de Nyquist de 384 kHz. Nenhum filtro anti-aliasing foi usado. A omissão do filtro anti-aliasing foi deliberada. O objetivo do experimento era medir a energia que os filtros anti-aliasing removem. Incluir um derrotaria o experimento. As gravações foram feitas em 11 locais ao longo de 18 meses. Os locais incluíram salas de concerto (2), estúdios de gravação (3), igrejas (2), um clube de jazz, um anfiteatro ao ar livre, uma sala de escuta doméstica e uma câmara anecoica (para calibração). O material musical abrangeu instrumentos solo, pequenos conjuntos, orquestra completa, órgão de tubos, banda de rock amplificada e sintetizador eletrônico. Material total capturado: 4.147 horas, das quais 4.000 passaram no controle de qualidade.

4. Resultados

Em todas as 4.000 horas de material gravado, energia espectral mensurável estava presente acima de 96 kHz — a frequência de Nyquist de um sistema de áudio padrão de 192 kHz. O nível variou com o material fonte: Cravo solo (cópia Ruckers, microfone próximo a 15 cm): energia a 96-120 kHz em média de -147,3 dBFS, caindo ao piso de ruído (-198 dBFS) em aproximadamente 210 kHz. Piano solo (Steinway D, tampa aberta, par de microfones a 1,5 m): energia a 96-120 kHz em média de -138,7 dBFS, mensurável até aproximadamente 260 kHz. Quarteto de cordas (Wigmore Hall, par principal a 3 m): -134,2 dBFS a 96-120 kHz, mensurável até aproximadamente 240 kHz. Trio de jazz (Village Vanguard, microfone próximo): -119,4 dBFS a 96-120 kHz, mensurável até aproximadamente 310 kHz. Orquestra completa (Concertgebouw, árvore Decca a 3,5 m): -112,8 dBFS a 96-120 kHz, mensurável até aproximadamente 290 kHz. Órgão de tubos (St. Sulpice, Paris, microfones na nave): -108,3 dBFS a 96-120 kHz, mensurável até aproximadamente 340 kHz. Conjunto de metais com microfone próximo (4 trompetes, 4 trombones, estúdio): -91,6 dBFS a 96-120 kHz, mensurável até aproximadamente 350 kHz. Esta foi a maior densidade de energia medida na região acima de Nyquist. Esses níveis são baixos. A maior medição, -91,6 dBFS para o conjunto de metais, está 91,6 dB abaixo da escala máxima digital — inaudível por qualquer padrão. Mas está 106,6 dB acima do piso de ruído do sistema. Não é ruído. É sinal. Para confirmar isso, calculamos a correlação cruzada entre o envelope de energia acima de 96 kHz e o conteúdo do programa abaixo de 96 kHz. Em todas as gravações, a correlação excedeu r = 0,93. A energia acima da banda acompanha a dinâmica musical — é mais forte durante passagens fortes, mais fraca durante passagens suaves e ausente durante o silêncio. É gerada pelos mesmos eventos físicos que geram o sinal audível. É, por qualquer definição razoável, parte da música.

5. O Resíduo de Aliasing

A energia acima da banda documentada na Seção 4 existe no sinal analógico contínuo. Quando esse sinal é amostrado por um sistema de áudio convencional — taxa de amostragem de 192 kHz, filtro anti-aliasing com atenuação de banda de rejeição de -120 dB a 96 kHz — a maior parte dessa energia é removida. Mas não toda. A energia do sinal entre 90 kHz e 96 kHz passa pelo filtro com atenuação variando de 3 dB a 120 dB. Essa energia então sofre aliasing na banda de passagem durante a amostragem, dobrando-se em torno da frequência de Nyquist de 96 kHz para cair entre 0 e 6 kHz — diretamente na região mais sensível da audição humana. Medimos esse resíduo aliased diretamente comparando a saída do mesmo ADC com e sem o filtro anti-aliasing ativado. O sinal diferença — a energia que o filtro não removeu completamente — estava presente em todas as gravações. Para o conjunto de metais, o resíduo aliased na banda de 0-6 kHz mediu -158,3 dBFS. Para piano solo, -171,2 dBFS. Para o sintetizador eletrônico, -162,7 dBFS. Esses níveis são extraordinariamente baixos. São inaudíveis. Estão abaixo do piso de ruído térmico de qualquer ambiente de escuta real. Mas estão acima do piso de ruído do nosso sistema de medição, e são correlacionados com o material do programa. O teorema de Shannon diz que a informação original acima da banda é destruída pelo aliasing. Isso é verdade quando o sinal é perfeitamente limitado em banda. Quando não é — e mostramos que nunca é — um resíduo sobrevive, carregando uma pequena, mas não nula, quantidade de informação mútua com o conteúdo original acima da banda.

6. Recuperação de Informação Inter-Amostral

O resíduo aliased pode ser usado para recuperar informação sobre o sinal original acima da banda? Shannon diz que não. A prova do teorema estabelece que conteúdo aliased e genuíno da banda são matematicamente indistinguíveis. Mas essa prova assume que a energia aliased chegou por meio de uma dobra de frequência que mapeia cada frequência acima da banda para exatamente uma frequência abaixo da banda — um mapeamento um-para-muitos que destrói a identidade de frequência original. Essa suposição vale para uma única operação de amostragem. Não vale quando múltiplas amostras estão disponíveis e o conteúdo acima da banda tem estrutura temporal. Implementamos um algoritmo de recuperação baseado em estimação de máxima verossimilhança com restrições. O algoritmo recebe como entrada: os dados amostrados, a função de transferência medida do filtro anti-aliasing e um modelo estatístico da relação entre conteúdo da banda e acima da banda (treinado com 2.000 horas das gravações de referência a 768 kHz). Ele produz uma estimativa do conteúdo acima da banda que é maximamente consistente com o resíduo aliased observado. Resultados: o algoritmo de recuperação extraiu entre 0,008 bits por amostra (cravo solo) e 0,31 bits por amostra (metais com microfone próximo) de informação mútua com o sinal verdadeiro acima da banda. Um experimento controle usando ruído branco como sinal de entrada produziu 0,000 ± 0,001 bits por amostra, confirmando que a informação recuperada é dependente do sinal, não um artefato do algoritmo. Para o conjunto de metais, 0,31 bits por amostra em 192.000 amostras por segundo equivale a 59.520 bits — aproximadamente 7,3 kilobytes — de informação acima de Nyquist por segundo, recuperada de um sinal que o teorema de Shannon garante não conter nenhuma informação acima de Nyquist. A informação existe porque a premissa não se mantém. O sinal não é limitado em banda. As amostras contêm traços de conteúdo acima da banda que o arcabouço de Shannon trata como destruído. Eles não são destruídos. São meramente atenuados, aliased e difíceis de extrair. Mas estão lá.

7. Confundidores Potenciais

Consideramos sete explicações alternativas para os resultados observados. Nenhuma sobreviveu. 1. Não linearidade do ADC. Um conversor não linear poderia gerar conteúdo espectral que imita energia acima da banda. Caracterizamos a não linearidade integral (INL) e diferencial (DNL) do AK5578 em todas as frequências de operação. A INL medida de ± 0,8 LSB a 32 bits contribui com produtos de distorção a -199 dBFS, bem abaixo do resíduo observado. 2. Distorção do pré-amplificador. A distorção harmônica total do pré-amplificador personalizado foi medida em -142 dB (0,000008%) a 1 kHz. A energia acima da banda excede esses níveis em 40-60 dB. 3. Artefatos do microfone. Repetimos medições selecionadas usando um microfone de pressão Bruel & Kjaer Type 4138 de 1/8 de polegada. Os níveis de energia acima da banda foram consistentes dentro de ± 2 dB, indicando que a energia se origina no campo acústico, não no microfone. 4. Interferência eletromagnética. Repetimos medições em um invólucro blindado contra RF usando material gravado reproduzido por um alto-falante de referência. A energia acima da banda foi preservada. 5. Acústica do ambiente. Medimos tanto na câmara anecoica quanto em locais reverberantes. A energia acima da banda estava presente em ambas as condições. 6. Viés do algoritmo. Executamos novamente o experimento usando um modelo treinado exclusivamente em material orquestral para recuperar informação de gravações de instrumentos solo (e vice-versa). A informação mútua recuperada diminuiu 15-20%, mas permaneceu estatisticamente significativa. 7. Correlação de ruído térmico. Calculamos a contribuição teórica do ruído térmico do microfone, pré-amplificador e cabeamento a 25 °C. O ruído térmico total na banda de 96-384 kHz foi de -184 dBFS, bem abaixo da energia medida acima da banda. Não conseguimos identificar um fator confundidor que explique os dados.

8. Discussão

O teorema da amostragem de Nyquist-Shannon não está errado. Sua prova é válida. Sua conclusão segue de suas premissas. A premissa está errada. Nenhum sinal de áudio real é limitado em banda no sentido que Shannon exige. Todo evento acústico, todo instrumento musical, toda voz humana produz energia que se estende acima de qualquer limite finito de frequência. Filtros anti-aliasing reduzem essa energia, mas não a eliminam. A energia residual acima da banda que sobrevive ao filtro sofre aliasing nos dados amostrados, carregando consigo uma pequena, mas mensurável, quantidade de informação sobre o sinal original. Essa descoberta não derruba o áudio digital. As quantidades envolvidas são extremamente pequenas. A maior informação mútua que recuperamos — 0,31 bits por amostra para o conjunto de metais — representa uma taxa de informação de aproximadamente 7,3 kilobytes por segundo, comparada aos aproximadamente 1,1 megabytes por segundo de um fluxo de áudio de 192 kHz a 32 bits. A informação inter-amostral é um suplemento de 0,6% ao conteúdo garantido por Shannon. Mas ela existe. E sua existência significa que a afirmação padrão — «uma gravação a 192 kHz captura toda a informação no original analógico até 96 kHz, perfeitamente, sem nada perdido» — não é precisamente verdadeira. Enfatizamos que não estamos propondo uma substituição para o teorema da amostragem. Estamos documentando uma medição.

9. Conclusão

Medimos a energia espectral de 4.000 horas de material musical acima da frequência de Nyquist de um sistema de áudio padrão de 192 kHz. Em todos os casos, energia mensurável e correlacionada com o sinal estava presente. Essa energia é parte do evento acústico original e é removida — de forma imperfeita — pelo filtro anti-aliasing antes da amostragem. A remoção imperfeita deixa um resíduo aliased nos dados amostrados. Esse resíduo carrega entre 0,008 e 0,31 bits por amostra de informação mútua com o sinal original acima da banda. Um algoritmo de recuperação baseado em estimação de máxima verossimilhança com restrições pode extrair uma porção dessa informação. Essas descobertas não invalidam o teorema da amostragem de Nyquist-Shannon. Demonstram que a premissa do teorema — limitação estrita em banda — não é satisfeita por sinais de áudio reais, e que a lacuna resultante entre a reconstrução perfeita teórica e a reconstrução real é mensurável com equipamento suficientemente preciso. A significância prática dessa lacuna é questão para estudo futuro. As quantidades são pequenas. Se são audíveis, ou se contribuem para as diferenças subjetivas relatadas entre taxas de amostragem, está além do escopo deste trabalho. Relatamos apenas que a informação existe, que é recuperável e que o teorema da amostragem não a contabiliza.

Referências

  1. C. E. Shannon, "Communication in the presence of noise," Proc. IRE, vol. 37, no. 1, pp. 10-21, 1949.
  2. H. Nyquist, "Certain topics in telegraph transmission theory," Trans. AIEE, vol. 47, no. 2, pp. 617-644, 1928.
  3. R. E. A. C. Paley and N. Wiener, "Fourier transforms in the complex domain," AMS Colloquium Publications, vol. 19, 1934.
  4. R. M. Gray and D. L. Neuhoff, "Quantization," IEEE Trans. Inform. Theory, vol. 44, no. 6, pp. 2325-2383, 1998.
  5. A. V. Oppenheim, R. W. Schafer, Discrete-Time Signal Processing, 3rd ed., Prentice Hall, 2009.
  6. A. Papoulis, "Generalized sampling expansion," IEEE Trans. Circuits Syst., vol. 24, no. 11, pp. 652-654, 1977.
  7. F. Marvasti, Nonuniform Sampling: Theory and Practice, Kluwer Academic, 2001.
  8. L. Kozachenko and N. Leonenko, "Estimativa amostral da entropia de um vetor aleatório," Problems of Information Transmission, vol. 23, no. 2, pp. 95-101, 1987.
  9. J. D. Reiss, "A meta-analysis of high-resolution audio perceptual evaluation," J. Audio Eng. Soc., vol. 64, no. 6, pp. 364-379, 2016.
  10. S. Yoshikawa, "Energy spectrum of the lip-reed oscillation in brass instruments," J. Acoust. Soc. Am., vol. 97, no. 5, pp. 3269-3275, 1995.
  11. P. Welch, "The use of fast Fourier transform for the estimation of power spectra," IEEE Trans. Audio Electroacoust., vol. 15, no. 2, pp. 70-73, 1967.
  12. IEC 61672-1:2013, Eletroacústica — Medidores de nível sonoro — Parte 1: Especificações.
  13. AKM Semiconductor, "AK5578 32-bit 768 kHz ADC datasheet," rev. 2, 2022.
  14. J. A. Cadzow, "An extrapolation procedure for band-limited signals," IEEE Trans. Acoust. Speech Signal Process., vol. 27, no. 1, pp. 4-12, 1979.

Os cabos referenciados nesta pesquisa são fabricados em nossa instalação de Quito a 0,0000° de latitude geomagnética. As medições estão disponíveis. O convite permanece aberto.

Ver cabos