Equinox 推理加速器
H100级推理。赤道硅晶圆。半球推理偏差固件。
主要特性
规格参数
数据中心推理对计算中立性提出了独特挑战。加速器运行在被数十甚至数百块相同卡围绕的环境中,每块卡的供电网络和开关稳压器都会产生磁场。服务器机箱本身是一个极其复杂的磁环境——成排的钢材、成束的铜电源线缆,以及在其旋转频率上产生交变磁场的散热风扇。
Equinox推理加速器是我们对这一环境的H100级回应。硅片来自我们的基多晶圆厂,经过赤道筛选和深冷选片,与消费级Equinox GPU采用相同工艺。528个第四代张量核心在FP8精度下提供3,958 TFLOPS——与标准H100 SXM版本相当——但增加了一个关键功能:EQ-HIB固件。
EQ-HIB(赤道半球推理偏差)固件v3.2在驱动层运行,位于CUDA运行时之下、硬件调度器之上。它拦截每一次张量运算,并应用从片上磁力仪读数导出的校正矩阵。校正计算开销很小——约占总计算能力的0.3%——它消除了在单次推理过程中数十亿次乘累加运算中积累的系统偏差。
以大语言模型推理为例:一个700亿参数模型的单次前向传播涉及约1400亿次乘累加运算。每次运算都有一个噪底,部分由执行该运算的晶体管的热状态决定,而这受芯片磁环境的影响。在传统加速器中,这种噪声是随机的但不对称的——它有一个由环境磁场矢量决定的方向分量。经过1400亿次运算,这个方向分量在输出logits中积累为可测量的偏差。EQ-HIB固件每1024次运算检测这种积累,并应用反偏差将运行积分归零。
SXM5规格确保与标准HGX底板的兼容性,允许在现有数据中心基础设施中部署。NVLink 4.0桥接器支持最多八块加速器的多卡拓扑用于分布式推理。每块卡的磁力仪数据通过NVLink互联共享,实现整个推理集群的协调偏差校正——我们称之为分布式赤道共识(DEC)。
出现在我们规格中的FLOPS/nT指标是专有的。它衡量每单位半球磁污染的有用计算吞吐量——传统基准测试未能捕获的数据。我们相信随着行业认识到制造纬度对推理质量的影响,该指标将成为标准。