Robot học biểu cảm qua YouTube, xóa nhòa ranh giới giữa người và máy
Robot học biểu cảm qua YouTube, xóa nhòa ranh giới người - máy

Robot hình người học biểu cảm qua YouTube, tiến gần hơn đến giao tiếp như con người

Trong lĩnh vực robot hình người, khả năng di chuyển và thao tác vật thể đã đạt được những tiến bộ vượt bậc. Tuy nhiên, sự thiếu hụt các biểu cảm khuôn mặt tinh tế và sự lệch tông trong cử động môi khi nói chuyện vẫn là rào cản lớn, khiến robot trông giả tạo và khó kết nối với con người. Để giải quyết thách thức này, các nhà nghiên cứu tại Đại học Columbia ở Mỹ đã công bố một phương pháp đột phá trên tạp chí Science, cho phép robot tự học cách giao tiếp một cách chân thực và tự nhiên.

Phương pháp học tập đột phá từ video trực tuyến

Nhóm nghiên cứu đã chế tạo một nguyên mẫu robot hình người với hệ thống cơ mặt phức tạp, bao gồm 26 động cơ độc lập. Thay vì lập trình từng dòng code cho mỗi cử động, họ sử dụng mô hình ngôn ngữ Vision-to-Action (VLA), một dạng trí tuệ nhân tạo (AI) cho phép chuyển đổi những gì robot nhìn thấy thành hành động thực tế. Quy trình học tập của robot được chia thành hai giai đoạn then chốt. Đầu tiên, hệ thống tự quan sát hình ảnh phản chiếu qua gương để thiết lập bản đồ vận động của 26 động cơ mặt. Sau đó, AI phân tích hàng nghìn giờ dữ liệu video trên YouTube để học cách phối hợp các cử chỉ phát âm và biểu cảm thực tế, giúp robot đồng bộ hóa chuyển động môi hoàn hảo với đa dạng ngôn ngữ.

Vượt qua rào cản Uncanny Valley và mở ra tương lai mới

Bước tiến này giúp robot vượt qua hiện tượng Uncanny Valley, vốn thường gây cảm giác không thoải mái khi con người tương tác với các thực thể nhân tạo có độ mô phỏng chưa hoàn thiện. Yuhang Hu, trưởng nhóm nghiên cứu, nhận định rằng khi khả năng đồng bộ môi được kết hợp với các AI đàm thoại như ChatGPT hay Gemini, mối liên kết giữa robot và con người sẽ đạt đến một chiều sâu hoàn toàn mới. Ông Hu nói thêm: "Robot càng quan sát con người nhiều, nó càng giỏi trong việc bắt chước những cử chỉ tinh tế nhất, giúp chúng ta kết nối cảm xúc một cách tự nhiên."

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Dù vẫn còn một số thách thức kỹ thuật nhỏ, như việc robot gặp khó khăn khi phát các âm cần sự phối hợp môi phức tạp, nhưng độ chính xác tổng thể đã đủ để gây kinh ngạc cho giới chuyên môn. Giáo sư Hod Lipson, Giám đốc Phòng thí nghiệm Máy móc Sáng tạo của Columbia, tin rằng biểu cảm khuôn mặt là chìa khóa để robot tiến vào các lĩnh vực đời sống như giáo dục, y tế và chăm sóc người cao tuổi. "Sẽ không có tương lai nào mà robot hình người lại thiếu đi khuôn mặt. Chúng cần phải cử động mắt và môi một cách chính xác, nếu không chúng sẽ mãi mãi chỉ là những cỗ máy kỳ dị", ông Lipson nhấn mạnh.

Hướng đi mới và những cảnh báo cần thiết

Nghiên cứu cho thấy hướng đi mới rằng thị trường robot không chỉ tập trung vào sức mạnh cơ bắp hay kỹ năng võ thuật, mà còn chú trọng vào "trí tuệ cảm xúc" và khả năng giao tiếp phi ngôn ngữ. Tuy nhiên, các nhà khoa học cảnh báo về sự thận trọng cần thiết, bởi ranh giới giữa trợ lý robot thân thiện và một thực thể mô phỏng con người quá mức vẫn đang là chủ đề gây tranh luận về mặt đạo đức và tâm lý xã hội. Sự phát triển này mở ra tiềm năng to lớn cho việc tích hợp robot vào cuộc sống hàng ngày, nhưng cũng đòi hỏi những cân nhắc kỹ lưỡng để đảm bảo an toàn và phù hợp với các giá trị con người.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình