Google vừa chính thức phát hành mô hình Gemini 3.5 Live Translate, một bước đột phá trong công nghệ dịch thuật thời gian thực. Tính năng này được tích hợp ngay trên hai ứng dụng phổ biến là Google Translate và Google Meet, giúp người dùng có thể giao tiếp đa ngôn ngữ một cách mượt mà và tự nhiên hơn bao giờ hết.
Nâng cấp đột phá trong phiên dịch thời gian thực
Theo thông báo từ Google vào ngày 10/6, mô hình Gemini 3.5 Live Translate mang đến khả năng chuyển ngữ tức thì, không còn tình trạng chờ đợi như trước đây. Cụ thể, thay vì phải đợi người nói kết thúc câu, bấm nút dịch và chờ xử lý, công nghệ AI mới có thể nhận diện và phân tích dữ liệu âm thanh trực tiếp trong cuộc hội thoại. Điều này cho phép phát ra bản dịch gần như đồng thời với lời nói gốc.
Ví dụ, trong một cuộc trò chuyện giữa người nói tiếng Anh và người dùng tiếng Việt, người dùng chỉ cần mở ứng dụng, chọn cặp ngôn ngữ Anh - Việt. Một giọng tiếng Việt sẽ được phát song song qua tai nghe, giữ nguyên ngữ điệu, tốc độ và cao độ của người nói gốc. Đây là một cải tiến lớn, giúp cuộc trò chuyện trở nên tự nhiên và chân thực hơn.
Triển khai tại Việt Nam và nhiều thị trường khác
Từ hôm nay (10/6), người dùng tại Việt Nam đã có thể trải nghiệm tính năng này trên ứng dụng Google Translate cho cả iOS và Android. Để sử dụng, người dùng chọn chế độ 'Dịch trực tiếp' ở góc trái màn hình và kết nối tai nghe để nghe phiên dịch. Google cho biết ứng dụng có thể phản ánh chính xác tông giọng của người nói với hơn 70 ngôn ngữ. Đây là bước đi chiến lược nhằm tối ưu hóa trải nghiệm giao tiếp không rào cản.
Riêng đối với người dùng Android, Google bổ sung thêm chế độ nghe riêng tư 'Listening Mode'. Khi áp điện thoại vào tai, âm thanh dịch sẽ phát qua loa thoại thay vì loa ngoài, rất hữu ích trong những tình huống muốn nghe bản dịch mà không để người khác nghe thấy hoặc khi không có tai nghe.
Ứng dụng trong doanh nghiệp và đối tác
Đối với doanh nghiệp, tính năng này sẽ xuất hiện trên Google Meet từ tháng này. Google Meet hỗ trợ hơn 2.000 cặp tổ hợp dịch trực tiếp, không còn bị rào cản phụ thuộc vào tiếng Anh như trước. Điều này mở ra cơ hội giao tiếp đa ngôn ngữ trong môi trường làm việc toàn cầu.
Gemini 3.5 Live Translate là mô hình âm thanh tiên tiến nhất của Google, có khả năng tự động nhận diện và xử lý hơn 70 ngôn ngữ với tốc độ gần như tức thì. Ngoài Meet và Translate, Google còn triển khai tính năng này cho các nhà phát triển thông qua Gemini Live API và Google AI Studio, giúp xây dựng các ứng dụng dịch giọng nói.
Grab là một trong những đối tác đầu tiên thử nghiệm mô hình này. Theo Google, hiện có khoảng 10 triệu cuộc gọi thoại qua nền tảng Grab được thực hiện bằng công nghệ này mỗi tháng, hỗ trợ giao tiếp đa ngôn ngữ giữa tài xế và hành khách. Ông Philipp Kandal, Giám đốc Sản phẩm tại Grab, chia sẻ: 'Khi thử nghiệm Gemini 3.5 Live Translate, chúng tôi đánh giá cao khả năng tự động phát hiện nhiều ngôn ngữ và dịch lời nói chính xác với độ trễ thấp'.
Tập đoàn giải trí CJ ENM của Hàn Quốc cũng bày tỏ sự kỳ vọng lớn. Bà Bella Baek, Giám đốc AI tại CJ ENM, cho biết: 'Các thử nghiệm ban đầu cho thấy chất lượng đầy hứa hẹn, mang lại trải nghiệm chân thực hơn cho người xem toàn cầu và Hàn Quốc'.



