Lập Trình Viên Độc Lập Tái Tạo Thuật Toán Nén AI Của Google Chỉ Trong 7 Ngày

Một lập trình viên đã tái tạo thành công thuật toán TurboQuant của Google chỉ từ bản nghiên cứu, giúp giảm bộ nhớ AI tới 6 lần mà không cần mã nguồn gốc, gây chấn động cộng đồng công nghệ.

Saigon Gazette 01/04/2026 08:37

Lập Trình Viên Độc Lập Tái Tạo Thuật Toán Nén AI Của Google Chỉ Trong 7 Ngày

Trong khi Google vẫn chưa công bố bất kỳ dòng mã nguồn chính thức nào, một lập trình viên độc lập đã gây bất ngờ khi tái tạo lại thuật toán TurboQuant chỉ trong vòng 7 ngày, dựa hoàn toàn trên bản nghiên cứu công khai. Sự kiện này không chỉ làm rung chuyển thị trường bán dẫn mà còn cho thấy tốc độ chuyển đổi từ nghiên cứu sang ứng dụng trong cộng đồng công nghệ đang tăng vọt.

Thuật Toán TurboQuant: Giải Pháp Cho Nút Thắt Bộ Nhớ AI

TurboQuant, do Google Research phát triển, được thiết kế để giải quyết một trong những thách thức lớn nhất của trí tuệ nhân tạo hiện nay: bộ nhớ. Trong các mô hình ngôn ngữ lớn, hệ thống phải lưu trữ lượng dữ liệu tạm thời khổng lồ gọi là KV cache, có thể chiếm hàng chục GB, thậm chí vượt quá kích thước của chính mô hình. Thuật toán này nén dữ liệu từ 16-bit xuống chỉ còn khoảng 3-bit, giảm dung lượng tới 6 lần mà vẫn duy trì độ chính xác trong nhiều bài kiểm tra.

Khả năng này đã gây ra phản ứng tức thì trên thị trường tài chính. Cổ phiếu của các công ty sản xuất bộ nhớ lao dốc mạnh chỉ sau khi nghiên cứu được công bố, mặc dù Google chưa phát hành sản phẩm hay code nào. Điều này cho thấy tác động tiềm tàng của TurboQuant trong việc cắt giảm chi phí RAM, vốn đang là gánh nặng cho ngành công nghiệp AI.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Hành Trình 7 Ngày Tái Tạo Thuật Toán Từ Con Số Không

Với giới lập trình, một bài báo nghiên cứu không phải là điểm kết thúc, mà là điểm khởi đầu cho sự sáng tạo. Ngay sau khi tài liệu được công bố, lập trình viên này đã bắt tay vào "giải mã" thuật toán, chuyển đổi các công thức toán học phức tạp thành logic lập trình có thể thực thi được.

Trong 3 ngày đầu tiên, phiên bản nguyên mẫu bằng Python được xây dựng, tập trung vào hai thành phần cốt lõi: quá trình biến đổi dữ liệu đầu vào để phù hợp cho nén và cơ chế lượng tử hóa giảm số bit lưu trữ. Hàng trăm bài kiểm thử được thiết kế để đảm bảo đầu ra sau nén vẫn khớp với kết quả gốc, một yêu cầu quan trọng vì sai lệch nhỏ có thể làm mất khả năng suy luận chính xác của mô hình.

Từ ngày thứ ba đến thứ năm, mã nguồn được chuyển sang ngôn ngữ C và tích hợp vào các dự án mã nguồn mở như llama.cpp, một nền tảng phổ biến để chạy mô hình AI trên máy cá nhân. Ở giai đoạn này, lập trình viên không chỉ tái tạo thuật toán mà còn giải quyết các vấn đề hiệu năng, bao gồm tổ chức dữ liệu trong bộ nhớ, tận dụng CPU và GPU, và tối ưu hóa luồng xử lý.

Đến hai ngày cuối cùng, quá trình tối ưu hóa được đẩy lên mức thấp hơn, gần với phần cứng. Các kỹ thuật như vector hóa phép toán, sắp xếp lại cấu trúc dữ liệu theo block, và giảm độ chính xác có kiểm soát theo thời gian được áp dụng để tăng tốc độ xử lý. Kết quả là hiệu năng được cải thiện đáng kể, với tốc độ xử lý tăng nhiều lần so với phiên bản ban đầu.

Kết Quả Ấn Tượng Và Những Biến Thể Sáng Tạo

Lập trình viên này không dừng lại ở việc sao chép thuật toán, mà còn thử nghiệm các biến thể riêng để tối ưu hóa hơn nữa. Ví dụ, thay vì nén toàn bộ dữ liệu như nhau, một số phần quan trọng được giữ độ chính xác cao hơn, trong khi phần ít quan trọng hơn được nén mạnh để tiết kiệm bộ nhớ. Một hướng khác là bỏ qua việc giải nén một phần dữ liệu khi không cần thiết, giúp giảm chi phí tính toán trong các ngữ cảnh dài.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Kết quả cuối cùng cho thấy các mô hình AI có thể hoạt động với bộ nhớ giảm từ 4 đến 6 lần, nhưng vẫn duy trì độ chính xác trong các bài kiểm tra dài ngữ cảnh. Thậm chí, một số mô hình lớn với 70 tỷ và 104 tỷ tham số, vốn cần nhiều GPU, giờ có thể chạy trên một máy đơn lẻ như MacBook M5 Max với RAM 128 GB, mở ra khả năng triển khai rộng rãi hơn trên phần cứng phổ thông.

Ý Nghĩa Sâu Sắc Cho Tương Lai Công Nghệ

Toàn bộ quá trình này diễn ra trong khi Google vẫn im lặng về mã nguồn chính thức, làm nổi bật hai điểm quan trọng. Thứ nhất, thuật toán được thiết kế đủ rõ ràng để có thể tái tạo chỉ từ mô tả nghiên cứu. Thứ hai, cộng đồng phát triển hiện nay có khả năng chuyển đổi từ nghiên cứu sang ứng dụng với tốc độ nhanh hơn rất nhiều so với trước đây, thúc đẩy sự đổi mới và cạnh tranh trong lĩnh vực trí tuệ nhân tạo.

Sự kiện này không chỉ là một thành tựu kỹ thuật đáng kinh ngạc, mà còn là minh chứng cho sức mạnh của cộng đồng mã nguồn mở và tinh thần sáng tạo không ngừng trong ngành công nghệ, hứa hẹn những bước tiến vượt bậc trong tương lai gần.