AI Đọc Chuyển Động Cổ, Biến Lời Nói Thầm Thành Giọng Nói Nghe Được
AI đọc chuyển động cổ, biến lời nói thầm thành giọng nói

AI Đọc Chuyển Động Cổ, Biến Lời Nói Thầm Thành Giọng Nói Nghe Được

Một đột phá đáng chú ý trong lĩnh vực trí tuệ nhân tạo và thiết bị đeo vừa được công bố bởi các nhà nghiên cứu tại Đại học Khoa học và Công nghệ Pohang (POSTECH). Dẫn đầu bởi Giáo sư Park Sung-Min và Tiến sĩ Hong Sun-Guk, nghiên cứu đăng trên tạp chí Cyborg and Bionic Systems giới thiệu hệ thống có khả năng chuyển đổi "lời nói thầm" hoặc thậm chí ý định nói thành giọng nói nghe được. Công nghệ này tập trung vào việc AI "đọc" chuyển động cơ cổ để tái tạo giọng nói, mở ra nhiều tiềm năng ứng dụng thực tế.

Cách AI "Đọc" Chuyển Động Cơ Cổ Để Tái Tạo Giọng Nói

Nhóm nghiên cứu đã tái định nghĩa khái niệm "lời nói", cho rằng nó không chỉ là âm thanh từ dây thanh quản mà còn là chuỗi chuyển động cơ học phức tạp ở vùng cổ họng. Ngay cả khi không phát ra âm thanh, các cơ nhỏ vẫn co giãn, tạo ra biến dạng rất nhỏ trên da, tạo thành "dấu vết vô hình" của ngôn ngữ. Để ghi nhận tín hiệu này, nhóm phát triển thiết bị đeo cổ sử dụng cảm biến lập bản đồ biến dạng đa trục.

Thiết bị bao gồm lớp silicone mềm tích hợp điểm đánh dấu vi mô màu đen, kết hợp camera thu nhỏ, ống kính hiển vi và hệ thống chiếu sáng LED. Khi người dùng "nói thầm", hệ thống theo dõi sự dịch chuyển của các điểm đánh dấu để dựng lại bản đồ biến dạng da và cơ cổ theo nhiều hướng. Khác với cảm biến truyền thống chỉ ghi nhận chuyển động một trục, hệ thống này đo đồng thời hướng và độ lớn biến dạng, tái hiện đầy đủ chuyển động sinh học liên quan đến phát âm.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Các thông số kỹ thuật cho thấy độ nhạy ấn tượng: Cảm biến phát hiện biến dạng nhỏ tới 0,02%, hệ số đo biến dạng đạt 3,625, độ tuyến tính vượt 0,99 và độ trễ dưới 0,65%. Thiết bị cũng có độ bền cao, duy trì ổn định qua hàng nghìn chu kỳ sử dụng.

Xử Lý Dữ Liệu Và Khắc Phục Thách Thực Thực Tế

Sau khi thu thập dữ liệu, hệ thống AI xử lý thông tin bằng mô hình lai giữa mạng nơ-ron tích chập (CNN) và Transformer. CNN trích xuất đặc trưng cục bộ từ bản đồ biến dạng, trong khi Transformer phân tích chuỗi tín hiệu theo thời gian, quan trọng để hiểu ngữ điệu và cấu trúc lời nói. Một thách thức thực tế là sự thay đổi vị trí khi đeo thiết bị, có thể làm biến đổi tín hiệu. Để khắc phục, hệ thống đo "ứng suất dư ban đầu" để hiệu chỉnh dữ liệu, đảm bảo AI không nhầm lẫn giữa biến dạng do đeo và biến dạng do lời nói.

Kết quả là chuỗi xử lý hoàn chỉnh: từ chuyển động cơ học, dữ liệu số, giải mã AI đến tổng hợp giọng nói. Người dùng có thể "nói" mà không phát ra âm thanh, nhưng vẫn được nghe lại bằng chính giọng nói của mình.

Mở Lối Cho Y Học Và Giao Tiếp Thầm Lặng

Hệ thống được huấn luyện trên 5.186 mẫu dữ liệu từ 6 người tham gia, sử dụng bộ từ vựng 26 từ trong bảng chữ cái ngữ âm NATO (Alpha, Bravo, Charlie...), được thiết kế để đảm bảo rõ ràng trong môi trường nhiễu cao. Trong thử nghiệm, mô hình đạt độ chính xác 85,8%. Sau khi tối ưu hóa bằng kỹ thuật chưng cất tri thức, kích thước mô hình giảm từ 12,4 MB xuống 3,6 MB, tốc độ xử lý tăng đáng kể (từ 0,018 giây xuống 0,003 giây), trong khi độ chính xác duy trì khoảng 82%.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Đáng chú ý, hệ thống hoạt động ổn định trong môi trường cực kỳ ồn ào. Với mức nhiễu 90 decibel, tương đương tiếng ồn công trường, hiệu suất nhận diện gần như không suy giảm so với môi trường bình thường 60 decibel. Tỷ lệ tín hiệu trên nhiễu đạt 33,75 dB, cao hơn nhiều so với khoảng 10,17 dB của các hệ thống Điện cơ đồ thương mại. Trong thử nghiệm thực tế, thiết bị vẫn hoạt động khi người dùng sử dụng súng trường nén khí, cho thấy khả năng chống nhiễu cơ học đáng kể.

So với phương pháp truyền thống như điện não đồ và đo điện cơ (EMG), vốn yêu cầu thiết bị cồng kềnh, giải pháp mới mang tính ứng dụng cao hơn nhờ thiết kế gọn nhẹ, linh hoạt và dễ đeo. Về ứng dụng, công nghệ mở ra triển vọng trong y học, giúp bệnh nhân mất giọng do tổn thương dây thanh quản hoặc phẫu thuật khôi phục khả năng giao tiếp. Trong môi trường công nghiệp ồn ào, thiết bị có thể thay thế micro truyền thống, và cho phép giao tiếp im lặng trong không gian yên tĩnh như thư viện hoặc phòng họp.

Hạn Chế Và Hướng Phát Triển Tương Lai

Tuy nhiên, nghiên cứu cũng chỉ ra một số hạn chế. Hiệu suất giảm khi thiết bị đeo không ổn định, khi người dùng cử động mạnh hoặc chuyển động đầu theo phương lên xuống. Việc nói quá lớn cũng có thể làm giảm độ chính xác do vượt quá giới hạn phần cứng hiện tại. Nhóm nghiên cứu cho biết các bước tiếp theo sẽ tập trung vào mở rộng dữ liệu huấn luyện, tăng vốn từ vựng, cải thiện khả năng chống nhiễu do chuyển động và tối ưu hóa để tích hợp vào thiết bị tiêu dùng.

Dù còn trong giai đoạn phát triển, công nghệ này đã cho thấy hướng đi mới trong giao tiếp người và máy: không cần âm thanh, không cần micro, chỉ cần tín hiệu sinh học. Trong tương lai, những "lời nói chưa kịp cất thành tiếng" hoàn toàn có thể được AI hiểu và truyền tải, một thay đổi có thể định nghĩa lại cách con người giao tiếp.