NVIDIA Thống Trị MLPerf Inference v6.0 Với Hiệu Suất Tăng Gấp 9 Lần Đối Thủ

NVIDIA Thống Trị MLPerf Inference v6.0 Với Hiệu Suất Vượt Trội

NVIDIA vừa công bố kết quả tham dự bộ bài kiểm tra MLPerf Inference v6.0, một tiêu chuẩn đánh giá khắt khe trong lĩnh vực trí tuệ nhân tạo. Với nền tảng Blackwell Ultra, công ty đã ghi nhận số lần chiến thắng cao gấp 9 lần so với đối thủ gần nhất, khẳng định vị thế dẫn đầu trong ngành công nghệ AI.

MLPerf Inference v6.0: Bộ Bài Kiểm Tra Toàn Diện

MLPerf Inference v6.0 do tổ chức MLCommons phát triển, bổ sung hỗ trợ cho các mô hình lập luận và MoE thế hệ mới, bao gồm DeepSeek-R1, GPT-OSS-120B và Mixtral 8x7B. Bộ bài kiểm tra này mở rộng phạm vi sang các mô hình ngôn ngữ lớn dạng dense, hệ thống gợi ý tạo sinh và mô hình ngôn ngữ thị giác, phản ánh chính xác yêu cầu thực tế của doanh nghiệp hiện nay. CEO Jensen Huang từng gọi MLPerf là một trong những bộ bài kiểm tra "khắt khe" nhất hiện có, đòi hỏi sự tối ưu hóa cao độ từ phần cứng đến phần mềm.

Kết Quả Ấn Tượng Từ Cấu Hình GB300 NVL72

Kết quả nổi bật nhất đến từ cấu hình GB300 NVL72 khi so sánh giữa phiên bản v5.1 và v6.0. Với tác vụ DeepSeek-R1 ở chế độ Server, thông lượng tăng từ 2.907 lên 8.064 tokens/giây/GPU, tương đương mức tăng 2,77 lần. Ở chế độ Offline, con số lần lượt là 5.842 và 9.821 tokens/giây/GPU, tăng 1,68 lần. Đối với mô hình Llama 3.1 405B, tốc độ Server tăng từ 170 lên 259 tokens/giây/GPU (1,52 lần), trong khi Offline đạt 271 tokens/giây/GPU so với 224 tokens/giây/GPU ở thế hệ trước, tăng 1,21 lần.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Tối Ưu Phần Mềm: Yếu Tố Then Chốt

Phần lớn mức tăng hiệu suất này đến từ tối ưu hóa phần mềm, không phải thay đổi phần cứng. Kể từ lần tham dự đầu tiên với bài kiểm tra DeepSeek-R1 vài tháng trước, NVIDIA đã cải thiện thông lượng token lên 2,7 lần chỉ nhờ cập nhật phần mềm. Ở cấp độ phần cứng, GB300 NVL72 mang lại tốc độ cao hơn tới 2,77 lần so với GB200 NVL72, cho thấy mức độ cải tiến qua từng thế hệ là nhất quán và rõ ràng.

Ưu Thế Độc Quyền Và Thiết Kế Đồng Bộ

NVIDIA cho biết đây là nhà sản xuất duy nhất nộp kết quả DeepSeek-R1 trong kỳ MLPerf Inference năm ngoái. Ở phiên bản v6.0, ưu thế này tiếp tục được duy trì. Nhiều nhà sản xuất chip ASIC và cả AMD vẫn chưa tham gia bộ bài kiểm tra này một cách toàn diện như NVIDIA. Công ty lý giải hiệu năng suy luận đạt được nhờ thiết kế đồng bộ cực kỳ chặt chẽ trên nhiều cấp độ: chip, kiến trúc hệ thống, thiết kế trung tâm dữ liệu và phần mềm.

Ứng Dụng Thực Tế Và Tính Cạnh Tranh

Kết quả MLPerf Inference v6.0 cũng được dùng để minh chứng cho chỉ số token/USD và chi phí sở hữu toàn phần (TCO) cạnh tranh trong các triển khai quy mô lớn. Điều này giúp NVIDIA không chỉ dẫn đầu về hiệu suất mà còn về khả năng tối ưu hóa chi phí, đáp ứng nhu cầu ngày càng tăng của doanh nghiệp trong việc triển khai các giải pháp AI tiên tiến.