Trung Quốc tạo bước nhảy vọt trong công nghệ robot nhân dạng
Một nhóm nghiên cứu liên trường từ Thâm Quyến và Phúc Kiến, Trung Quốc vừa công bố thành tựu đột phá trong lĩnh vực robot nhân dạng. Hệ thống mới kết hợp cơ sở dữ liệu khuôn mặt 3D quy mô lớn với trí tuệ nhân tạo thế hệ mới, hứa hẹn xóa nhòa ranh giới giữa robot và con người thông qua khả năng biểu cảm hình học chính xác chưa từng có.
Thách thức biểu cảm tự nhiên và giải pháp đột phá
Trong cuộc đua phát triển robot nhân dạng, khả năng tương tác và biểu cảm tự nhiên luôn là mục tiêu tối thượng mà các kỹ sư theo đuổi. Rào cản lớn nhất nằm ở việc robot thường gặp khó khăn trong việc hiểu và tái tạo các chi tiết cơ học phức tạp trên khuôn mặt người. Tuy nhiên, nghiên cứu mới từ Viện Công nghệ Tiên tiến Thâm Quyến (SIAT) thuộc Học viện Khoa học Trung Quốc và Đại học Công nghệ Phúc Kiến đang thay đổi hoàn toàn cục diện này.
Chuyển đổi từ 2D sang tư duy đám mây điểm 3D
Phương pháp truyền thống sử dụng ánh xạ kết cấu từ hình ảnh 2D lên mô hình 3D đã bộc lộ nhiều hạn chế, bao gồm sai lệch khi đối chiếu giữa ảnh phẳng và hình khối thực tế, cùng với việc không nắm bắt được sự thay đổi tinh tế về hình học khi khuôn mặt chuyển động. Để giải quyết triệt để vấn đề này, nhóm nghiên cứu do Giáo sư Tống Triển dẫn dắt đã chọn hướng đi đột phá: làm việc trực tiếp với dữ liệu hình học thô dưới dạng đám mây điểm.
Đám mây điểm là tập hợp hàng triệu điểm trong không gian tọa độ ba chiều, mô tả chính xác từng lồi lõm trên khuôn mặt mà không cần đến màu sắc hay hình ảnh phủ bên ngoài. Điểm then chốt của công trình là mô hình AI mang tên Mạng lưới chú ý đồ thị kết hợp độ cong (CF-GAT). Thay vì tập trung vào làn da hay màu mắt, CF-GAT phân tích "độ cong" của các đặc điểm hình học, giúp robot xác định các điểm mốc quan trọng như khóe mắt, vành môi hay gò má dựa thuần túy trên dữ liệu không gian.
Kho dữ liệu khổng lồ phục vụ đào tạo AI
Một thuật toán thông minh luôn cần lượng dữ liệu khổng lồ để học hỏi. Nhận thức rõ điều này, nhóm nghiên cứu đã xây dựng hệ thống thu thập dữ liệu 3D và 4D tùy chỉnh, thu thập khoảng 200.000 bản quét khuôn mặt người thật với độ chính xác cực cao. Đây được coi là một trong những kho dữ liệu sinh trắc học 3D có cấu trúc lớn nhất thế giới hiện nay.
Cơ sở dữ liệu này không chỉ bao gồm khuôn mặt ở trạng thái tĩnh mà còn có các bộ dữ liệu 4D ghi lại biểu cảm động, giúp AI hiểu được cách các nhóm cơ mặt co giãn khi một người cười, khóc hay ngạc nhiên. Nhờ nguồn tài nguyên phong phú này, mô hình CF-GAT đã đạt được sự ổn định vượt trội trước các tác động của nhiễu và có khả năng thích nghi với mọi hình dạng khuôn mặt khác nhau trong đời thực.
Ứng dụng thực tiễn và tương lai của robot
Những tiến bộ này mang lại ý nghĩa to lớn cho thế hệ robot nhân dạng tiếp theo. Khi robot có khả năng phát hiện điểm mốc khuôn mặt trực tiếp từ hình học, chúng có thể theo dõi cử động của con người chính xác hơn để phản hồi bằng những biểu cảm chân thực. Điều này đặc biệt quan trọng trong các lĩnh vực như:
- Chăm sóc sức khỏe: Sự thấu cảm qua nét mặt có thể hỗ trợ tâm lý cho bệnh nhân.
- Dịch vụ khách hàng: Đòi hỏi sự tương tác niềm nở và tự nhiên.
- Giáo dục và giải trí: Tạo ra trải nghiệm tương tác phong phú hơn.
Bên cạnh robot vật lý, công nghệ này còn mở đường cho các avatar ảo trong vũ trụ số trở nên sống động hơn. Người dùng sẽ thấy những nhân vật kỹ thuật số có cử động môi và nheo mắt khớp hoàn toàn với thực tế, loại bỏ cảm giác gượng gạo của những mô hình máy tính khô khan trước đây.
Sự kết hợp giữa dữ liệu quy mô lớn và thuật toán định hướng hình học của các nhà khoa học Trung Quốc đã đặt ra tiêu chuẩn mới cho trí thông minh nhân tạo. Khi robot ngày càng "giống người" hơn về mặt hình học, chúng không chỉ là những cỗ máy vô hồn mà đang dần trở thành những người bạn đồng hành có khả năng giao tiếp phi ngôn ngữ đầy tinh tế, mở ra kỷ nguyên mới trong tương tác giữa con người và máy móc.



