‘Bố già’ AI ra mắt mô hình mới chạy trên laptop, tiết kiệm tài nguyên
‘Bố già’ AI ra mắt mô hình mới chạy trên laptop

Trong bối cảnh ngành trí tuệ nhân tạo đang chạy đua về quy mô phần cứng, giáo sư Yann LeCun vừa công bố một mô hình AI mới mang tên LeWorldModel. Mô hình này chỉ có 15 triệu tham số, có thể huấn luyện trên một GPU duy nhất trong vài giờ, nhưng lại có khả năng lập kế hoạch nhanh hơn tới 48 lần so với các mô hình thế giới dựa trên nền tảng lớn. Điều này đặt ra câu hỏi liệu việc đầu tư hàng nghìn tỷ USD vào chip và trung tâm dữ liệu có thực sự cần thiết?

Kiến trúc mới, tư duy đột phá

Thay vì tập trung vào việc tăng số lượng tham số và sức mạnh tính toán, LeWorldModel loại bỏ những yếu tố không cần thiết. Các mô hình JEPA trước đây yêu cầu tới 6 bộ siêu tham số, kỹ thuật trung bình động mũ, bộ mã hóa được huấn luyện trước và nhiều yếu tố phức tạp khác. Trong khi đó, LeWorldModel chỉ sử dụng một bộ siêu tham số và một công cụ điều chuẩn phân phối Gaussian, giúp quá trình huấn luyện ổn định hơn đáng kể.

Hoạt động dựa trên mô hình thế giới

LeWorldModel hoạt động với hai thành phần chính: bộ mã hóa hình ảnh và bộ dự đoán trạng thái tương lai. Hệ thống nhận dữ liệu hình ảnh thô, chuyển chúng thành không gian biểu diễn nén chứa các đặc trưng vật lý quan trọng như vị trí, chuyển động và mối quan hệ giữa các đối tượng. Sau đó, mô hình dự đoán trạng thái tiếp theo của thế giới thay vì tái tạo lại toàn bộ hình ảnh pixel. Cách tiếp cận này giúp giảm đáng kể khối lượng tính toán.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Kết quả ấn tượng trong thử nghiệm

Trong các thử nghiệm lập kế hoạch hành động cho robot và môi trường mô phỏng 2D, 3D, LeWorldModel cho tốc độ lập kế hoạch nhanh hơn tới 48 lần so với các mô hình thế giới hiện nay. Một bài kiểm tra cho thấy quá trình lập kế hoạch hoàn chỉnh chỉ mất chưa tới một giây. Nhóm nghiên cứu cũng thực hiện bài kiểm tra 'vi phạm kỳ vọng', tạo ra các tình huống phi vật lý như dịch chuyển tức thời vật thể, và LeWorldModel đã phản ứng với mức độ 'ngạc nhiên' cao, cho thấy mô hình đã học được quy luật vật lý cơ bản.

Bối cảnh ra mắt đầy chú ý

Bài báo nghiên cứu được công bố chỉ vài ngày sau khi ông LeCun huy động thành công 1,03 tỷ USD cho startup AMI Labs với mức định giá 3,5 tỷ USD. Mặc dù ông không trực tiếp là tác giả, nhưng toàn bộ hướng nghiên cứu JEPA và mô hình thế giới đều gắn liền với tầm nhìn của ông. Trong khi nhiều công ty AI tiếp tục đầu tư hàng chục tỷ USD vào GPU và trung tâm dữ liệu, LeWorldModel đưa ra một lập luận khác: vấn đề của AI không chỉ nằm ở quy mô phần cứng, mà còn ở kiến trúc mô hình và cách biểu diễn thế giới bên trong hệ thống.

Bài nghiên cứu có sự tham gia của các tác giả từ Mila, NYU, Samsung SAIL và Brown, không có ai từ Meta. Điều này càng khẳng định hướng đi độc lập của ông LeCun sau 12 năm gắn bó với Meta, nơi ông xây dựng FAIR và coi đó là thành tựu phi kỹ thuật đáng tự hào nhất.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình