Công ty công nghệ ShengShu Technology của Trung Quốc vừa công bố Motubrain, một mô hình trí tuệ nhân tạo (AI) hợp nhất được thiết kế để đóng vai trò như "bộ não vạn năng" cho robot, giúp chúng xử lý hàng loạt nhiệm vụ phức tạp trong thế giới thực chỉ với một hệ thống duy nhất. Động thái này đánh dấu bước tiến mới trong cuộc đua phát triển AI hiện thân, khi các công ty không còn chỉ tập trung vào chatbot hay mô hình tạo sinh văn bản, mà hướng tới xây dựng "bộ não số" cho robot đa năng.
Motubrain là gì?
Theo giới thiệu từ ShengShu Technology, Motubrain không phải là mô hình điều khiển robot truyền thống mà được định vị như một "bộ não chung" có khả năng kết hợp nhận thức, suy luận, dự đoán và hành động trong cùng một cấu trúc AI. Mục tiêu của hệ thống là thay thế cách tiếp cận phân mảnh hiện nay, nơi các chức năng như cảm biến, lập kế hoạch hay điều khiển hành động phải phụ thuộc vào những mô-đun riêng biệt.
Trong nhiều năm qua, robot công nghiệp và dịch vụ thường chỉ hoạt động hiệu quả trong môi trường cố định với các kịch bản được lập trình sẵn. Khi chuyển sang môi trường thực tế với nhiều biến số khó lường, các hệ thống truyền thống bộc lộ hạn chế do thiếu khả năng thích nghi linh hoạt. Motubrain được tạo ra để giải quyết vấn đề này.
Công nghệ đằng sau Motubrain
ShengShu cho biết mô hình mới được xây dựng dựa trên dữ liệu video quy mô lớn từ nền tảng tạo sinh Vidu, công nghệ từng giúp công ty nổi lên trong lĩnh vực AI video. Thay vì chỉ học từ văn bản hoặc hình ảnh tĩnh, Motubrain tiếp nhận đồng thời dữ liệu video, ngôn ngữ và hành động để hình thành khả năng hiểu thế giới thực gần giống con người hơn.
Ông Jun Zhu, nhà sáng lập ShengShu Technology, nhận định rằng một "mô hình thế giới" thực sự cần có khả năng xây dựng biểu diễn thống nhất về môi trường thực tế và dự đoán sự thay đổi theo thời gian. Theo ông, các hệ thống AI tương lai không nên là tập hợp các mô-đun ghép nối rời rạc mà phải là một kiến trúc thống nhất, nơi mọi thành phần từ nhận thức đến hành động đều liên kết chặt chẽ.
Để hiện thực hóa mục tiêu đó, Motubrain sử dụng kiến trúc Mixture-of-Transformers ba luồng, cho phép AI đồng thời xử lý nhiều loại dữ liệu đầu vào. Nhờ đó, robot có thể vừa hiểu chỉ dẫn bằng ngôn ngữ tự nhiên, vừa quan sát môi trường, đồng thời dự đoán kết quả của các hành động tiếp theo trong thời gian thực.
Phương pháp huấn luyện đột phá
Một điểm đáng chú ý của Motubrain là phương pháp huấn luyện. Khác với nhiều hệ thống robot hiện tại phụ thuộc nặng nề vào dữ liệu được gắn nhãn thủ công, mô hình mới tận dụng lượng lớn video chưa gắn nhãn, dữ liệu mô phỏng và bản ghi nhiệm vụ từ nhiều robot khác nhau. Hệ thống tự phân tích để rút ra các mẫu chuyển động và hành vi thông qua cơ chế "latent action framework", giúp giảm đáng kể chi phí và thời gian huấn luyện.
Theo ShengShu, cách tiếp cận này giúp Motubrain có khả năng mở rộng hiệu quả hơn khi khối lượng dữ liệu tăng lên. Trong các bài kiểm tra nội bộ, mô hình duy trì tỷ lệ thành công cao ngay cả khi độ phức tạp của nhiệm vụ được nâng lên đáng kể.
Hiệu suất ấn tượng
Các con số đánh giá ban đầu cho thấy tham vọng lớn của ShengShu. Motubrain đạt 63,77 điểm trên WorldArena và trung bình 96,0 điểm trong 50 nhiệm vụ thuộc bộ đánh giá RoboTwin 2.0. Đáng chú ý, đây là mô hình duy nhất vượt ngưỡng 95,0 trong môi trường ngẫu nhiên hóa, nơi robot phải xử lý các tình huống biến đổi liên tục thay vì kịch bản cố định.
Khả năng thực hiện nhiệm vụ phức tạp
Motubrain được thiết kế để xử lý các nhiệm vụ thực tế phức tạp hơn nhiều so với các hệ thống robot hiện nay. Theo ShengShu, robot sử dụng mô hình này có thể thực hiện liên tiếp tối đa 10 hành động nguyên tử trong một chuỗi thao tác, trong khi nhiều nền tảng khác chỉ xử lý được khoảng 2 đến 3 bước. Điều này mở ra khả năng robot hoàn thành các công việc phức tạp trong nhà máy, cửa hàng hay gia đình mà không cần sự can thiệp liên tục từ con người.
Ví dụ, một robot có thể tự động xác định vị trí đồ vật, di chuyển tới khu vực cần thao tác, nhặt vật thể, xử lý lỗi phát sinh rồi tiếp tục nhiệm vụ mà không cần lập trình riêng cho từng tình huống. Trong các thử nghiệm thực tế, khi thao tác gắp vật thể thất bại giữa chừng, hệ thống tự nhận biết lỗi, điều chỉnh hành động và thử lại mà không cần huấn luyện trước cho kịch bản đó. Đây được xem là bước tiến quan trọng giúp robot hoạt động gần hơn với cách con người phản ứng trước sai sót.
Ứng dụng và triển vọng
Hiện tại, Motubrain đã được triển khai trong các chương trình huấn luyện robot thuộc nhiều lĩnh vực, từ công nghiệp, thương mại cho tới môi trường gia đình. ShengShu cũng đang hợp tác với các công ty như Astribot, SimpleAI và Anyverse Dynamics nhằm mở rộng khả năng ứng dụng công nghệ.
Đằng sau dự án là nguồn lực tài chính đáng kể. ShengShu Technology vừa nhận khoản đầu tư Series B trị giá 293 triệu USD do Alibaba Cloud dẫn đầu. Khoản vốn mới được kỳ vọng giúp công ty tăng tốc nghiên cứu AI hiện thân và mở rộng quy mô triển khai Motubrain trong thời gian tới.



