Google Công Bố Thuật Toán TurboQuant: Nén Bộ Nhớ AI 6 Lần, Cổ Phiếu Chip Lao Dốc

Google Gây Chấn Động Với Thuật Toán TurboQuant: Nén Bộ Nhớ AI Xuống 6 Lần

Google vừa tạo ra một cơn địa chấn trong thị trường công nghệ khi công bố nghiên cứu TurboQuant, một thuật toán nén đột phá có khả năng giảm lượng bộ nhớ cần thiết để chạy các mô hình ngôn ngữ lớn xuống 6 lần mà không làm mất độ chính xác. Không chỉ vậy, thuật toán này còn giúp tăng tốc độ xử lý của AI lên gấp 8 lần, mở ra khả năng các mô hình AI cỡ lớn có thể hoạt động trơn tru ngay trên laptop cá nhân của người dùng.

Phản Ứng Tức Thì Từ Thị Trường Tài Chính

Ngay sau thông báo của Google, thị trường tài chính đã phản ứng một cách nhanh chóng và mạnh mẽ. Cổ phiếu của các nhà cung cấp chip nhớ và lưu trữ hàng đầu thế giới đồng loạt lao dốc trong phiên giao dịch. Cụ thể, Micron Technology giảm 4%, Western Digital tụt 4,4%, Seagate Technology rớt 5,6%, và Sandisk chìm sâu tới 6,5%. Sự sụt giảm này phản ánh lo ngại về tác động tiềm tàng của TurboQuant đối với ngành công nghiệp chip nhớ trị giá hàng tỷ USD.

TurboQuant Giải Quyết Nút Thắt Lớn Nhất Trong AI

Để hiểu tại sao một bài nghiên cứu học thuật lại có thể gây ra cơn chấn động như vậy, cần phải nắm rõ vấn đề mà TurboQuant đang nhắm đến. Mỗi khi người dùng tương tác với các AI như ChatGPT, mô hình phải lưu trữ toàn bộ cuộc hội thoại trong bộ nhớ gọi là "key-value cache" (KV cache). Cuộc trò chuyện càng dài, bộ nhớ cache càng lớn, dẫn đến chi phí vận hành cực kỳ đắt đỏ.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Con số thực tế thậm chí còn kinh hoàng hơn nhiều người tưởng tượng. Một cuộc trò chuyện với 128.000 từ trên một mô hình lớn có thể ngốn tới 40GB bộ nhớ GPU chỉ cho một người dùng duy nhất. Khi nhân lên với hàng nghìn người dùng, chi phí tính toán để xử lý lại cùng một dữ liệu nhiều lần có thể lên đến hàng triệu USD. Đây chính là lý do ngành công nghiệp chip nhớ đã đặt cược tương lai vào việc vấn đề này không bao giờ được giải quyết triệt để.

Cơ Chế Hoạt Động Tinh Vi Của TurboQuant

TurboQuant phá vỡ hoàn toàn phương trình cũ bằng cách nén bộ nhớ cache xuống chỉ còn 3 bits mỗi giá trị, so với mức tiêu chuẩn ngành là 32 bits, tương đương giảm gần 11 lần. Khác với các phương pháp nén trước đây luôn phải đánh đổi giữa nén bộ nhớ và chất lượng, TurboQuant xóa bỏ hoàn toàn sự thỏa hiệp này. Các nhà phát triển độc lập đã thử nghiệm và xác nhận kết quả đầu ra khớp chính xác với phiên bản sử dụng bộ nhớ đầy đủ, không có bất kỳ suy giảm chất lượng nào.

Cơ chế hoạt động của thuật toán này khá tinh vi nhưng có thể hiểu đơn giản qua hai bước chính:

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Bước một: Google lấy một danh sách dài các con số đại diện cho bộ nhớ của mô hình và "xoay" chúng một chút, tương tự như việc sắp xếp đồ vật gọn gàng hơn trong hộp. Điều này giúp các con số dễ lưu trữ hơn ở dạng độ chính xác thấp, sử dụng ít bits hơn trong khi vẫn giữ được các mẫu hữu ích.
Bước hai: Một quy trình làm sạch được áp dụng để sửa chữa phần biến dạng do nén mạnh gây ra, đảm bảo mô hình vẫn có thể truy xuất thông tin quá khứ một cách chính xác mà không bị nhầm lẫn bởi phiên bản lưu trữ thô hơn.

Nguy Cơ Và Cơ Hội Cho Ngành Công Nghệ

Điều đặc biệt nguy hiểm đối với ngành chip nhớ là TurboQuant không yêu cầu huấn luyện lại hay tinh chỉnh mô hình. Nó có thể được tích hợp ngay vào các hệ thống AI hiện có mà không cần sửa đổi gì. Google đã thử nghiệm thành công trên ba mô hình AI lớn và năm benchmark khác nhau, với kết quả khớp hoặc vượt trội.

Thuật toán này hiện đang chạy bên trong Gemini, và các nhà phát triển đang chuyển nó sang Apple Silicon. Điều này có nghĩa là các mô hình AI từng cần workstation trị giá 10.000 USD giờ đây có thể chạy trên MacBook thông thường. Các tác nhân AI hoạt động liên tục trở nên rẻ hơn đáng kể để vận hành, và các mô hình open-source quá lớn cho phần cứng tiêu dùng đột nhiên trở nên khả thi.

Google cũng tuyên bố hiệu suất nhanh hơn tới 8 lần trên H100 cho một số thao tác chính, cho thấy đây không chỉ là về tiết kiệm bộ nhớ mà còn về việc di chuyển dữ liệu với ít ma sát hơn.

Tác Động Dài Hạn Và Phản Ứng Thị Trường

Mặc dù đợt bán tháo cổ phiếu chip nhớ cho thấy phản ứng quá mức từ thị trường, vì thành công trong phòng thí nghiệm không tự động trở thành triển khai toàn ngành và nhu cầu AI vẫn đang chạm tới giới hạn cung cứng. Trong ngắn hạn, các cổ phiếu chip nhớ vẫn ổn định nhờ các hợp đồng đã ký và doanh thu đã khóa, không có gì phát nổ trong quý này.

Tuy nhiên, Google đã chứng minh rằng nút thắt phần cứng đắt nhất trong AI có thể được hóa giải bằng phần mềm. Thuật toán này không thay thế phần cứng, nhưng nó khiến phần cứng trở nên ít quan trọng hơn. Và đó chính xác là điều Google vừa làm với ngành công nghiệp chip nhớ trị giá hàng tỷ USD, mở ra một kỷ nguyên mới cho sự phát triển của trí tuệ nhân tạo.