NVIDIA vừa chính thức công bố Nemotron 3 Super, phiên bản mới nhất trong dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở của hãng, được thiết kế đặc biệt để tối ưu hóa cho các ứng dụng AI tác nhân (agentic AI). Đây là bước tiến quan trọng trong cuộc đua phát triển trí tuệ nhân tạo, với nhiều tính năng đột phá về hiệu suất và khả năng xử lý ngữ cảnh.
Kiến trúc lai Mamba-MoE: Hiệu quả vượt trội
Điểm nổi bật nhất của Nemotron 3 Super chính là kiến trúc lai Mamba-MoE độc đáo. Khác với các mô hình MoE truyền thống, Mamba thay đổi cách LLM diễn giải luồng dữ liệu bằng cách sử dụng Mô hình Không gian Trạng thái (SSM) để đọc dữ liệu một cách tuyến tính. Cách tiếp cận này giúp ngăn chặn việc xây dựng cửa sổ ngữ cảnh quá lớn và bao gồm thông tin không liên quan, cho phép Nemotron 3 Super duy trì cửa sổ ngữ cảnh tối ưu cho các tác vụ cụ thể của người dùng.
Ưu điểm về hiệu suất và bộ nhớ
Các lớp Mamba trong kiến trúc này mang lại hiệu quả bộ nhớ và tính toán cao hơn gấp 4 lần so với các giải pháp truyền thống. Đồng thời, các lớp transformer được tích hợp thúc đẩy khả năng suy luận nâng cao, tạo nên sự kết hợp hoàn hảo giữa tốc độ và độ chính xác.
Một điểm đáng chú ý khác là mô hình chỉ kích hoạt 12 tỷ trong tổng số 120 tỷ tham số khi thực hiện suy luận. Điều này đạt được nhờ công nghệ Latent MoE mới, giúp cải thiện độ chính xác bằng cách kích hoạt bốn chuyên gia với chi phí của một để tạo ra token tiếp theo.
Cửa sổ ngữ cảnh 1 triệu token: Bước nhảy vọt
Nemotron 3 Super sở hữu cửa sổ ngữ cảnh lên tới 1 triệu token, lớn gấp 4 lần so với Kimi 2.5. Khả năng này giúp mô hình vượt trội so với hầu hết các LLM mã nguồn mở khác trên thị trường và tiệm cận hiệu suất của các mô hình cao cấp như Opus 4.5, mặc dù chỉ giới hạn ở 120 tỷ tham số.
Tính năng dự đoán đa token
Một cải tiến quan trọng khác là tính năng dự đoán đa token, cho phép Nemotron 3 Super dự đoán nhiều từ tương lai cùng một lúc. Khả năng này giúp tăng tốc độ suy luận lên gấp 3 lần, mang lại trải nghiệm nhanh chóng và hiệu quả hơn cho người dùng.
Hiệu suất thực tế ấn tượng
NVIDIA đã thử nghiệm Nemotron 3 Super trên PinchBench, một bộ công cụ đánh giá chuyên sâu cho các tác vụ tác nhân. Kết quả cho thấy mô hình đạt 85,6% trên toàn bộ bộ thử nghiệm, vượt qua nhiều đối thủ nặng ký như Opus 4.5, Kimi 2.5 và GPT-OSS 120b.
Khả năng triển khai thực tế
Đối với người dùng chạy các tác vụ mở rộng thông qua các tác nhân như OpenClaw, Nemotron 3 Super có thể được đáp ứng chỉ với một GPU duy nhất. Điều này mở ra nhiều khả năng ứng dụng thực tế với chi phí hợp lý hơn, đặc biệt quan trọng trong bối cảnh các giải pháp AI ngày càng đòi hỏi tài nguyên tính toán lớn.
Sự ra mắt của Nemotron 3 Super không chỉ khẳng định vị thế dẫn đầu của NVIDIA trong lĩnh vực AI mà còn mang đến một công cụ mạnh mẽ cho cộng đồng phát triển mã nguồn mở. Với cửa sổ ngữ cảnh khổng lồ, kiến trúc tối ưu và hiệu suất vượt trội, mô hình này hứa hẹn sẽ thúc đẩy nhiều đột phá mới trong ứng dụng trí tuệ nhân tạo.



