Google Gây Chấn Động Với TurboQuant: Thuật Toán Nén Giảm 6 Lần Bộ Nhớ AI
Google Gây Chấn Động Với TurboQuant: Giảm 6 Lần Bộ Nhớ AI

Google Gây Chấn Động Thị Trường Với Thuật Toán Nén TurboQuant

Google vừa tạo ra một cú sốc lớn trong ngành công nghệ khi công bố nghiên cứu TurboQuant, một thuật toán nén đột phá có khả năng giảm lượng bộ nhớ cần thiết để chạy các model ngôn ngữ lớn xuống 6 lần mà vẫn duy trì độ chính xác hoàn hảo. Sự kiện này được ví như một quả bom nổ giữa thị trường chip nhớ, làm rung chuyển cả ngành công nghiệp phần cứng.

Phản Ứng Tức Thì Từ Thị Trường Tài Chính

Ngay sau thông báo, thị trường tài chính phản ứng gần như ngay lập tức. Cổ phiếu của các nhà cung cấp chip nhớ và lưu trữ hàng đầu thế giới đồng loạt lao dốc trong phiên giao dịch sáng thứ Tư. Cụ thể, Micron Technology giảm 4%, Western Digital tụt 4,4%, Seagate Technology rớt 5,6%, và Sandisk chìm sâu 6,5%. Sự sụt giảm mạnh này phản ánh lo ngại về tác động tiềm tàng của TurboQuant đối với nhu cầu chip nhớ trong tương lai.

Vấn Đề Lớn Nhất Trong AI Hiện Nay

Để hiểu tại sao một bài nghiên cứu học thuật lại có thể gây ra cơn địa chấn như vậy, cần phải nắm rõ vấn đề mà TurboQuant đang giải quyết. Mỗi khi người dùng tương tác với các AI như ChatGPT, model phải lưu trữ mọi thông tin trong cuộc hội thoại thông qua bộ nhớ gọi là "key-value cache" hay KV cache. Càng trò chuyện dài, bộ nhớ cache càng lớn, dẫn đến chi phí vận hành tăng cao đáng kể. Đây chính là nút thắt lớn nhất trong ngành AI hiện nay.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Con số thực tế còn kinh hoàng hơn nhiều người tưởng tượng. Một cuộc trò chuyện với 128.000 từ trên một model lớn có thể ngốn tới 40GB bộ nhớ GPU chỉ cho một người dùng duy nhất. Khi nhân con số này lên hàng nghìn người dùng, chi phí tính toán để xử lý lại cùng một dữ liệu nhiều lần có thể lên đến hàng triệu USD. Chính vì vậy, toàn bộ ngành công nghiệp chip nhớ đã đặt cược tương lai vào việc vấn đề này không bao giờ được giải quyết triệt để.

TurboQuant: Thuật Toán Làm Thay Đổi Cả Ngành Phần Cứng

TurboQuant của Google đã phá vỡ hoàn toàn phương trình đó. Thuật toán này nén bộ nhớ cache xuống chỉ còn 3 bits mỗi giá trị, so với mức tiêu chuẩn ngành là 32 bits, đồng nghĩa với việc giảm gần 11 lần. Với TurboQuant, bộ nhớ được nén xuống 6 lần, trong khi tốc độ xử lý tăng gấp 8 lần, mang lại hiệu quả vượt trội.

Trong khi các phương pháp nén trước đây đều phải đánh đổi giữa nén bộ nhớ và mất chất lượng, TurboQuant xóa bỏ hoàn toàn sự thỏa hiệp này. Các nhà phát triển độc lập đã thử nghiệm trong vài giờ và nhận được kết quả khớp chính xác với output sử dụng bộ nhớ đầy đủ, không có bất kỳ sự suy giảm chất lượng nào.

Cơ Chế Hoạt Động Tinh Vi Của TurboQuant

Cơ chế hoạt động của TurboQuant khá tinh vi nhưng có thể hiểu đơn giản qua hai bước chính. Đầu tiên, Google lấy một danh sách dài các con số đại diện cho bộ nhớ của model và xoay chúng một chút, tương tự như việc xếp đồ vật gọn gàng hơn trong hộp. Điều này làm cho các con số dễ lưu trữ hơn ở dạng độ chính xác thấp, giúp mỗi con số sử dụng ít bits hơn nhiều mà vẫn giữ được các mẫu hữu ích.

Bước thứ hai là một quy trình làm sạch sửa chữa một phần biến dạng do nén mạnh gây ra, đảm bảo model vẫn có thể tìm thấy thông tin quá khứ chính xác thay vì bị nhầm lẫn bởi phiên bản được lưu trữ thô hơn.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Nguy Cơ Đối Với Ngành Chip Nhớ

Điều đặc biệt nguy hiểm đối với ngành chip nhớ là TurboQuant không cần huấn luyện lại hay tinh chỉnh model. Nó có thể được cài đặt ngay vào các hệ thống AI hiện có mà không cần sửa đổi gì. Google đã thử nghiệm nó trên ba model AI lớn và năm benchmark khác nhau, với kết quả đều khớp hoặc vượt trội.

Thuật toán này hiện đang chạy bên trong Gemini, và các nhà phát triển đang chuyển nó sang Apple Silicon. Điều này có nghĩa là các model AI từng cần workstation trị giá 10.000 USD giờ đây có thể chạy trên MacBook thông thường. Các tác nhân AI hoạt động liên tục trở nên rẻ hơn đáng kể để vận hành, và các model open-source quá lớn đối với phần cứng tiêu dùng đột nhiên trở nên khả thi.

Google cũng tuyên bố hiệu suất nhanh hơn tới 8 lần trên H100 cho một số thao tác chính, cho thấy đây không chỉ là về tiết kiệm bộ nhớ mà còn về di chuyển dữ liệu với ít ma sát hơn.

Tác Động Dài Hạn Và Triển Vọng Tương Lai

Mặc dù vậy, đợt bán tháo cổ phiếu các công ty chip nhớ dường như cho thấy phản ứng quá mức, vì những thành công trong phòng thí nghiệm không tự động trở thành triển khai toàn ngành và nhu cầu AI vẫn đang chạm tới giới hạn cung cứng. Trong ngắn hạn, các cổ phiếu chip nhớ vẫn ổn định nhờ hợp đồng đã ký, doanh thu đã khóa, và không có gì phát nổ trong quý này.

Tuy nhiên, Google vừa chứng minh rằng nút thắt phần cứng đắt nhất trong AI có thể được hóa giải bằng phần mềm. Thuật toán này sẽ không bao giờ thay thế được phần cứng, nhưng nó khiến phần cứng trở nên ít quan trọng hơn. Và đó chính xác là điều Google vừa làm với ngành công nghiệp chip nhớ trị giá hàng tỷ USD, mở ra một kỷ nguyên mới cho công nghệ AI với chi phí thấp hơn và hiệu quả cao hơn.