Cuộc đua Trí tuệ nhân tạo hiện thân: Dòng vốn ồ ạt nhưng thách thức dữ liệu vẫn còn
Trí tuệ nhân tạo hiện thân: Dòng vốn lớn, thách thức dữ liệu

Trí tuệ nhân tạo hiện thân: Bước tiến từ không gian số sang thế giới vật lý

Hiện nay, cuộc thảo luận về Trí tuệ nhân tạo tổng quát (AGI) đang chuyển dịch mạnh mẽ từ lĩnh vực văn bản và hình ảnh sang thế giới vật lý thực tế. Trí tuệ nhân tạo hiện thân (Embodied AI), tức là việc trang bị cho AI một cơ chế vật lý để cảm nhận, hiểu và tương tác với môi trường xung quanh, đang nổi lên như chiến lược then chốt trong cuộc cạnh tranh công nghệ toàn cầu. Tuy nhiên, khác với thời kỳ của các mô hình ngôn ngữ lớn vốn dựa trên nguồn dữ liệu sẵn có, các mô hình "bộ não" của trí tuệ nhân tạo hiện thân đang đối mặt với cơn "khát dữ liệu" chưa từng có tiền lệ.

Dòng vốn đổ mạnh nhưng ứng dụng thực tế vẫn hạn chế

Theo dự báo từ Trung tâm Nghiên cứu Phát triển Quốc vụ viện Trung Quốc, quy mô thị trường trí tuệ nhân tạo hiện thân của nước này được kỳ vọng đạt 400 tỷ nhân dân tệ vào năm 2030 và vượt mốc nghìn tỷ vào năm 2035. Trong báo cáo phát triển năm 2025 của Viện Thông tin và Truyền thông Trung Quốc, lĩnh vực này lần đầu tiên được đưa vào danh mục các ngành công nghiệp tương lai trọng điểm cấp quốc gia, với quy mô thị trường toàn cầu dự kiến đạt 19,5 tỷ nhân dân tệ.

Chỉ trong ba tháng đầu năm 2026, quy mô đầu tư cho lĩnh vực này tại Trung Quốc đã gần chạm mốc 30 tỷ nhân dân tệ, với số lượng thương vụ tăng 63% so với cùng kỳ. Các công ty như Lightwheel Intelligence đã huy động hơn 500 triệu USD, trong khi LimX Dynamics hoàn tất vòng B trị giá 200 triệu USD với định giá vượt 1 tỷ USD. Tuy nhiên, bất chấp dòng vốn ồ ạt, quá trình đưa trí tuệ nhân tạo hiện thân vào đời sống và sản xuất vẫn gặp nhiều trở ngại.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Ông Tống Kế Cường, Phó Chủ tịch Viện Nghiên cứu Intel kiêm Viện trưởng Intel Trung Quốc, chia sẻ: "Sự phát triển của trí tuệ nhân tạo hiện nay đang ở giai đoạn chiến lược kép giữa 'nâng cao giới hạn trên của năng lực' và 'đảm bảo giới hạn dưới của năng lực'. Hầu hết doanh nghiệp công nghệ đều phô diễn khả năng thông minh của robot, nhưng rất ít quan tâm đến việc xử lý khi chúng hoạt động kém, đây chính là khoảng cách mà công nghiệp hóa bắt buộc phải vượt qua."

Thách thức từ dữ liệu huấn luyện và nhu cầu đổi mới hạ tầng

Mặc dù đã có các nhà sản xuất robot như Unitree Robotics hay Galbot tạo ra những sản phẩm có độ linh hoạt cao, phần lớn kỹ thuật trình diễn vẫn dựa trên chương trình lập trình sẵn. Ông Chu Nhạn Minh, đồng sáng lập công ty Giản Trí Trung Quốc, nhận định: "Hiện nay, năng lực mô hình hóa thực sự của các công ty trí tuệ nhân tạo hiện thân vẫn chỉ dừng lại ở những nhiệm vụ rất ngắn và đơn giản, như gấp quần áo, rót nước." Điều này phản ánh thực trạng chung: trình diễn ấn tượng nhưng ứng dụng thực tế còn xa vời, đặc biệt trong các môi trường phức tạp như gia đình, nhà máy hay hệ thống logistics.

Để giải quyết vấn đề, ngành công nghiệp đang chuyển hướng sang xây dựng "mô hình thế giới", giúp AI hiểu các quy luật vật lý cơ bản như lực ma sát và động lực học, thay vì chỉ dựa trên mô tả ngôn ngữ. Tuy nhiên, nút thắt cốt lõi vẫn là sự thiếu hụt nghiêm trọng dữ liệu huấn luyện chất lượng cao. Ông Vương Kỳ, Giám đốc Marketing mảng trí tuệ hiện thân tại Công ty TNHH Công nghệ Topstar Trung Quốc, chỉ ra ba điểm nghẽn chính:

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình
  • Thiếu tiêu chuẩn thống nhất cho dữ liệu.
  • Thu thập dữ liệu khó khăn và chi phí cao.
  • Vấn đề bảo mật và quyền riêng tư.

Giải pháp đổi mới từ hạ tầng dữ liệu và công nghệ thu thập

Một số startup như công ty Giản Trí đang chọn hướng đi khác biệt bằng cách tập trung xây dựng "hạ tầng dữ liệu" thay vì cạnh tranh trực tiếp về mô hình. Họ phát triển các giải pháp phần cứng mô phỏng cấu trúc xương người, chẳng hạn như thiết bị Gen DAS Dex với trọng lượng chỉ 210g, kết hợp cảm biến xúc giác từ tính độ phân giải cao để đo lường chính xác chuyển động và lực tác động.

Ở cấp độ hệ thống, công ty này đạt được đồng bộ thời gian nghiêm ngặt thông qua SoC tự phát triển, kiểm soát độ trễ truyền thông dưới 1 mili giây. Quan trọng hơn, họ xây dựng mô hình xử lý đầu-cuối, biến dữ liệu thô đa phương thức thành gói dữ liệu chuẩn hóa với COT giải thích ngữ nghĩa, giúp nâng cao hiệu suất và giảm đáng kể nhu cầu gán nhãn thủ công.

Cuộc cách mạng về hạ tầng dữ liệu này đang âm thầm đặt nền móng cho việc trí tuệ nhân tạo hiện thân hòa nhập vào thế giới thực. Ai nắm được khả năng sản xuất "dữ liệu con người" hiệu quả, người đó có thể nắm giữ chìa khóa mở ra kỷ nguyên phát triển mới cho ngành công nghệ toàn cầu.