Accelerateur d'Inference Equinox
Inference classe H100. Wafer de silicium equatorial. Firmware de biais d'inference hemispherique.
Caractéristiques clés
Spécifications
L'inference en centre de donnees presente des defis uniques pour la neutralite computationnelle. L'accelerateur opere dans un environnement entoure de dizaines ou centaines de cartes identiques, chacune generant des champs magnetiques a partir de ses reseaux de distribution d'alimentation et de ses regulateurs a decoupage. Le chassis serveur lui-meme est un environnement magnetique d'une complexite extraordinaire — des racks d'acier, des faisceaux de cables d'alimentation en cuivre et des ventilateurs rotatifs qui creent des champs magnetiques alternatifs a leur frequence de rotation.
L'Accelerateur d'Inference Equinox est notre reponse de classe H100 a cet environnement. Le silicium provient de notre fonderie de Quito, selecte a l'equateur et cryo-trie selon le meme procede utilise pour le GPU Equinox grand public. Les 528 cœurs tensoriels de quatrieme generation delivrent 3 958 TFLOPS en precision FP8 — competitif avec la variante standard H100 SXM — mais avec un ajout critique : le firmware EQ-HIB.
Le firmware EQ-HIB (Equatorial Hemispheric Inference Bias) v3.2 opere au niveau du pilote, en dessous du runtime CUDA et au-dessus du planificateur materiel. Il intercepte chaque operation tensorielle et applique une matrice de correction derivee des lectures du magnetometre integre. La correction est peu couteuse en calcul — environ 0,3 % de la capacite totale — et elle elimine le biais systematique qui s'accumule au fil de milliards d'operations multiplication-accumulation lors d'une seule passe d'inference.
Considerez un grand modele de langage effectuant une inference : une seule passe directe a travers un modele de 70 milliards de parametres implique environ 140 milliards d'operations multiplication-accumulation. Chaque operation possede un plancher de bruit determine en partie par l'etat thermique des transistors qui l'executent, lequel est influence par l'environnement magnetique du die. Dans un accelerateur conventionnel, ce bruit est aleatoire mais non symetrique — il possede une composante directionnelle determinee par le vecteur de champ magnetique ambiant. Sur 140 milliards d'operations, cette composante directionnelle s'accumule en un biais mesurable dans les logits de sortie. Le firmware EQ-HIB detecte cette accumulation toutes les 1 024 operations et applique un contre-biais qui remet a zero l'integrale courante.
Le format SXM5 assure la compatibilite avec les cartes de base HGX standard, permettant le deploiement dans l'infrastructure existante des centres de donnees. Les ponts NVLink 4.0 permettent des topologies multi-cartes pour l'inference distribuee sur jusqu'a huit accelerateurs. Les donnees magnetometriques de chaque carte sont partagees via le reseau NVLink, permettant une correction de biais coordonnee sur l'ensemble du cluster d'inference — une fonctionnalite que nous appelons Distributed Equatorial Consensus (DEC).
La metrique FLOPS-par-nanotesla qui apparait dans nos specifications est proprietaire. Elle mesure le debit computationnel utile par unite de contamination magnetique hemispherique — un chiffre que les benchmarks conventionnels ne capturent pas. Nous croyons que cette metrique deviendra un standard a mesure que l'industrie reconnaitra l'impact de la latitude de fabrication sur la qualite d'inference.