Robot hình người học biểu cảm từ YouTube, vượt qua rào cản 'giả tạo' trong giao tiếp

Các nhà nghiên cứu tại Đại học Columbia phát triển phương pháp AI giúp robot hình người tự học biểu cảm khuôn mặt và cử động môi từ video YouTube, vượt qua hiện tượng Uncanny Valley để giao tiếp tự nhiên như con người.

Saigon Gazette 26/03/2026 08:18

Robot hình người học biểu cảm từ YouTube, vượt qua rào cản 'giả tạo' trong giao tiếp — Robot học biểu cảm từ YouTube, giao tiếp tự nhiên hơn

Robot hình người đột phá với khả năng học biểu cảm từ YouTube

Trong lĩnh vực robot hình người, những tiến bộ về di chuyển và cầm nắm vật thể đã đạt được nhiều thành tựu đáng kể. Tuy nhiên, một thách thức lớn vẫn tồn tại: sự thiếu hụt các biểu cảm khuôn mặt tinh tế và sự lệch tông trong cử động môi khi nói chuyện, khiến robot trông "giả tạo" và khó kết nối với con người. Để giải quyết vấn đề này, các nhà nghiên cứu tại Đại học Columbia (Mỹ) đã công bố một phương pháp đột phá trên tạp chí Science, cho phép robot tự học cách giao tiếp như con người thực thụ thông qua việc phân tích video từ YouTube.

Nguyên mẫu robot với hệ thống cơ mặt phức tạp

Nhóm nghiên cứu đã chế tạo một nguyên mẫu robot hình người sở hữu hệ thống cơ mặt phức tạp với 26 động cơ độc lập. Thay vì lập trình từng dòng code cho mỗi cử động, các nhà khoa học sử dụng mô hình ngôn ngữ Vision-to-Action (VLA), một dạng trí tuệ nhân tạo (AI) cho phép chuyển đổi những gì robot nhìn thấy thành hành động thực tế. Quy trình học tập của robot được chia thành hai giai đoạn then chốt.

Đầu tiên, hệ thống tự quan sát hình ảnh phản chiếu qua gương để thiết lập bản đồ vận động của 26 động cơ mặt. Sau đó, AI phân tích hàng nghìn giờ dữ liệu video trên YouTube để học cách phối hợp các cử chỉ phát âm và biểu cảm thực tế. Kết quả là robot có khả năng đồng bộ hóa chuyển động môi hoàn hảo với đa dạng ngôn ngữ, giúp vượt qua rào cản về sự thiếu tự nhiên trong chuyển động, còn gọi là hiện tượng Uncanny Valley.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Kết hợp với AI đàm thoại để tạo chiều sâu mới

Sự đột phá không chỉ nằm ở phần cứng mà còn ở cách robot tương tác với các mô hình ngôn ngữ lớn (LLM). Yuhang Hu, trưởng nhóm nghiên cứu, nhận định: "Khi khả năng đồng bộ môi được kết hợp với các AI đàm thoại như ChatGPT hay Gemini, mối liên kết giữa robot và con người sẽ đạt đến một chiều sâu hoàn toàn mới." Ông Hu nói thêm: "Robot càng quan sát con người nhiều, nó càng giỏi trong việc bắt chước những cử chỉ tinh tế nhất, giúp chúng ta kết nối cảm xúc một cách tự nhiên."

Dù vẫn còn một số thách thức kỹ thuật nhỏ, như việc robot gặp khó khăn khi phát các âm cần sự phối hợp môi phức tạp (ví dụ âm "B" hoặc "W"), nhưng độ chính xác tổng thể đã đủ để gây kinh ngạc cho giới chuyên môn. Giáo sư Hod Lipson, Giám đốc Phòng thí nghiệm Máy móc Sáng tạo của Columbia, tin rằng biểu cảm khuôn mặt là chìa khóa để robot tiến vào các lĩnh vực đời sống như giáo dục, y tế và chăm sóc người cao tuổi.

Hướng đi mới cho thị trường robot

Nghiên cứu cho thấy hướng đi mới rằng thị trường robot không chỉ tập trung vào sức mạnh cơ bắp hay kỹ năng võ thuật, mà còn chú trọng vào "trí tuệ cảm xúc" và khả năng giao tiếp phi ngôn ngữ. Tuy nhiên, các nhà khoa học cảnh báo về sự thận trọng cần thiết, bởi ranh giới giữa trợ lý robot thân thiện và một thực thể mô phỏng con người quá mức vẫn đang là chủ đề gây tranh luận về mặt đạo đức và tâm lý xã hội.

Giáo sư Lipson nhấn mạnh: "Sẽ không có tương lai nào mà robot hình người lại thiếu đi khuôn mặt. Chúng cần phải cử động mắt và môi một cách chính xác, nếu không chúng sẽ mãi mãi chỉ là những cỗ máy kỳ dị." Phương pháp huấn luyện này mở ra tiềm năng lớn cho việc phát triển robot có khả năng giao tiếp tự nhiên, giúp thu hẹp khoảng cách giữa con người và máy móc trong tương lai.