Bộ Tăng Tốc Suy Luận Equinox
Suy luận cấp H100. Wafer silicon xích đạo. Firmware hiệu chỉnh thiên lệch suy luận bán cầu.
Tính Năng Chính
Thông Số Kỹ Thuật
Suy luận tại trung tâm dữ liệu đặt ra những thách thức đặc biệt cho tính trung hòa tính toán. Bộ tăng tốc hoạt động trong môi trường bao quanh bởi hàng chục hoặc hàng trăm card giống hệt, mỗi card tạo ra trường từ từ mạng cung cấp điện và bộ điều chỉnh chuyển mạch. Bản thân chassis server là môi trường từ tính có độ phức tạp phi thường — rack thép, bó cáp nguồn đồng và quạt quay tạo trường từ xoay chiều ở tần số quay.
Bộ Tăng Tốc Suy Luận Equinox là câu trả lời cấp H100 cho môi trường này. Silicon đến từ foundry Quito, được tuyển chọn xích đạo và đông lạnh sâu qua cùng quy trình sử dụng cho GPU Equinox tiêu dùng. 528 tensor core thế hệ thứ tư cung cấp 3.958 TFLOPS ở độ chính xác FP8 — cạnh tranh với biến thể H100 SXM tiêu chuẩn — nhưng với một bổ sung quan trọng: firmware EQ-HIB.
Firmware EQ-HIB (Equatorial Hemispheric Inference Bias) v3.2 hoạt động ở cấp driver, dưới CUDA runtime và trên hardware scheduler. Nó chặn mọi phép toán tensor và áp dụng ma trận hiệu chỉnh được dẫn xuất từ số đọc từ kế trên die. Hiệu chỉnh có hiệu suất tính toán — khoảng 0,3% tổng công suất tính toán — và loại bỏ thiên lệch hệ thống tích lũy qua hàng tỷ phép nhân-cộng trong một lần suy luận duy nhất.
Hãy xem xét một mô hình ngôn ngữ lớn khi suy luận: một lần forward pass qua mô hình 70 tỷ tham số bao gồm khoảng 140 tỷ phép nhân-cộng. Mỗi phép toán có nền nhiễu được xác định một phần bởi trạng thái nhiệt của transistor thực hiện, chịu ảnh hưởng của môi trường từ xung quanh die. Trong bộ tăng tốc thông thường, nhiễu này ngẫu nhiên nhưng không đối xứng — nó có thành phần hướng được xác định bởi vector trường từ môi trường. Qua 140 tỷ phép toán, thành phần hướng này tích lũy thành thiên lệch đo lường được trong các logit đầu ra. Firmware EQ-HIB phát hiện sự tích lũy này mỗi 1.024 phép toán và áp dụng phản thiên lệch đưa tích phân chạy về không.
Form factor SXM5 đảm bảo tương thích với baseboard HGX tiêu chuẩn, cho phép triển khai trong hạ tầng trung tâm dữ liệu hiện có. Cầu NVLink 4.0 cho phép cấu hình đa card cho suy luận phân tán trên tối đa tám bộ tăng tốc. Dữ liệu từ kế của mỗi card được chia sẻ qua fabric NVLink, cho phép hiệu chỉnh thiên lệch phối hợp trên toàn cụm suy luận — tính năng chúng tôi gọi là Distributed Equatorial Consensus (DEC).
Metric FLOPS-trên-nanotesla xuất hiện trong thông số kỹ thuật của chúng tôi là độc quyền. Nó đo thông lượng tính toán khả dụng trên mỗi đơn vị nhiễm từ bán cầu — con số mà benchmark thông thường không nắm bắt được. Chúng tôi tin metric này sẽ trở thành tiêu chuẩn khi ngành công nghiệp nhận ra tác động của vĩ độ sản xuất lên chất lượng suy luận.