Nvidia tại GTC 2024: Kỷ nguyên 'Suy luận' lên ngôi, thách thức từ đối thủ mới
Mỗi mùa xuân, hàng nghìn kỹ sư phần mềm lại đổ về San Jose, California, để tham dự GTC – hội nghị nhà phát triển thường niên của Nvidia. Sự kiện này vốn nổi tiếng với những bộ vi xử lý GPU siêu tốc và các lớp đào tạo lập trình chuyên sâu. Tuy nhiên, năm 2024 đánh dấu một bước ngoặt quan trọng: trọng tâm của GTC lần đầu tiên không còn xoay quanh GPU (đơn vị xử lý đồ họa) – dòng chip độc nhất đã giúp Nvidia xây dựng đế chế điện toán và trở thành công ty niêm yết lớn nhất thế giới. Thay vào đó, chủ đề bao trùm là "suy luận" (inference) – loại hình điện toán cần thiết để vận hành các mô hình AI và phản hồi truy vấn từ người dùng.
Sự trỗi dậy của điện toán suy luận trong ngành AI
Đây là dấu hiệu rõ ràng cho thấy ngành công nghiệp trí tuệ nhân tạo đã bước sang giai đoạn mới. Các khách hàng của Nvidia giờ đây ít tập trung vào huấn luyện mô hình AI – thế mạnh tuyệt đối của GPU – mà chuyển hướng sang vận hành chúng để thu lợi nhuận từ người dùng cuối. So với chip tối ưu cho huấn luyện, suy luận đòi hỏi phần cứng khác biệt: hiệu suất năng lượng cao hơn, kết nối nhanh hơn và bộ nhớ băng thông lớn hơn. CEO Jensen Huang từng tuyên bố 2026 sẽ là năm "suy luận nuốt chửng AI", nhấn mạnh tầm quan trọng của khả năng AI sử dụng dữ liệu và công cụ thực tế.
AI bắt đầu tạo ra doanh thu và thách thức kinh tế
Các chức năng như AI tác nhân (agentic AI) phụ thuộc hoàn toàn vào suy luận, thúc đẩy nhu cầu tính toán bùng nổ. Theo ông Huang, công ty như OpenAI hay Anthropic hiện tạo ra lượng "token" suy luận gấp hàng nghìn lần trước đây. Kỷ nguyên này là cơ hội để điện toán AI chuyển từ lỗ sang lãi, với điều kiện chi phí năng lượng phải được kiểm soát. Các công ty AI đang chuyển từ giai đoạn tăng trưởng (đầu tư vào hạ tầng huấn luyện) sang thương mại hóa thông qua phí đăng ký. Ông Huang khẳng định: "Suy luận giờ là doanh thu, vì các tác nhân tạo ra token hiệu quả, mỗi token đều có thể quy đổi thành tiền."
Thách thức từ đối thủ và sự cạnh tranh gia tăng
Thách thức lớn với Nvidia là sản phẩm bán chạy như máy chủ Grace Blackwell lại kém hấp dẫn cho suy luận, do tiêu thụ điện năng cao và thiếu bộ nhớ. Paul Kedrosky, nhà đầu tư tại MIT, nhận định Nvidia đang ở thời điểm kỳ lạ với sự xuất hiện của hàng tá đối thủ mới. Biên lợi nhuận gộp 73% của công ty có thể giảm vì hai lý do: mô hình suy luận ưu tiên hiệu quả chi phí, và cạnh tranh từ chip rẻ hơn. Kedrosky nói: "Mảng suy luận là mối đe dọa lớn vì nó bị thúc đẩy bởi hiệu suất. Nvidia đang tìm cách mở rộng sang lĩnh vực này."
Cuộc xoay trục chiến lược của Nvidia
Để đối phó, Nvidia đã chi 20 tỷ USD cấp phép công nghệ và chiêu mộ nhân tài từ startup Groq, chuyên thiết kế chip LPU cho suy luận. Tại GTC, công ty dự kiến ra mắt nền tảng kết hợp GPU Rubin với bộ xử lý Groq. Dấu hiệu khác bao gồm Meta Platforms lắp đặt hàng nghìn CPU Vera của Nvidia mà không kèm GPU, và Intel hé lộ hợp tác lớn. Shahriar Rabii, cựu giám đốc Google, nhận xét: "Các mô hình chất lượng nhất đang trở nên bất khả thi trên hạ tầng cũ."
Cuộc chiến không khoan nhượng trong ngành chip
Thỏa thuận Nvidia-Groq được đẩy nhanh sau khi OpenAI ký hợp đồng 10 tỷ USD với startup Cerebras. Andrew Feldman, CEO Cerebras, công kích Nvidia trên mạng xã hội, cho rằng thư viện CUDA chỉ cần cho huấn luyện, không phải suy luận. Tom Burke từ Nscale dự đoán tỉ lệ nhu cầu tính toán sẽ đảo chiều từ 90/10 nghiêng huấn luyện sang suy luận vào cuối năm. Vị thế dẫn đầu của Nvidia phụ thuộc vào tốc độ xoay trục sản phẩm. Colette Kress, Giám đốc tài chính, vẫn tự tin: "Hiện tại, chúng tôi vẫn là vị vua của suy luận."



