Mới đây, Google đã chính thức giới thiệu Gemini 3.5 Live Translate, một mô hình âm thanh AI tiên tiến được thiết kế để mang đến trải nghiệm dịch thuật thời gian thực tự nhiên và liền mạch hơn cho các cuộc hội thoại đa ngôn ngữ.
Điểm khác biệt của Gemini 3.5 Live Translate
Không giống như các hệ thống dịch truyền thống chỉ xử lý lời nói theo từng lượt, Gemini 3.5 Live Translate có khả năng liên tục lắng nghe, dịch và phát lại nội dung đã dịch chỉ với độ trễ vài giây. Điều này giúp cuộc trò chuyện diễn ra trôi chảy, mô phỏng gần như hoàn hảo cách con người giao tiếp tự nhiên.
Mô hình có thể tự động nhận diện ngôn ngữ đang được sử dụng và hỗ trợ hơn 70 ngôn ngữ, bao gồm cả tiếng Việt, tạo ra hàng nghìn cặp ngôn ngữ khác nhau trong cùng một cuộc hội thoại. Google cho biết công nghệ này đã được cung cấp cho các nhà phát triển và đối tác để tích hợp vào các cuộc họp trực tuyến, nền tảng giao tiếp và ứng dụng di động.
Những cải tiến vượt trội
Thay đổi lớn nhất nằm ở cách thức dịch thuật: thay vì chờ một người nói xong rồi mới tạo bản dịch, Gemini 3.5 Live Translate thực hiện dịch trực tuyến liên tục. Nhờ đó, cuộc trò chuyện trở nên mượt mà hơn, giảm đáng kể những khoảng dừng khó xử, sự gián đoạn và độ trễ thường thấy ở các công cụ dịch truyền thống.
Hệ thống được xây dựng để hoạt động hiệu quả trong các tình huống giao tiếp hằng ngày. Mô hình có thể xử lý môi trường nhiều tiếng ồn, âm thanh nền, nhiều người nói cùng lúc và các kiểu nói chuyện không quá trang trọng. Điều này giúp Gemini 3.5 Live Translate phù hợp với nhiều tình huống sử dụng như:
- Tổng đài chăm sóc khách hàng
- Các chuyến tham quan có hướng dẫn viên
- Lớp học đa ngôn ngữ
- Dịch vụ gọi xe
- Chương trình phát sóng trực tiếp
Google cũng đặc biệt chú trọng đến chất lượng giọng nói đầu ra. Thay vì tạo ra một giọng nói tổng hợp chung chung, hệ thống cố gắng giữ lại các đặc điểm trong cách nói của người dùng, bao gồm tốc độ nói, ngữ điệu và cảm xúc trong giọng nói. Nhờ vậy, phần nội dung được dịch nghe tự nhiên hơn và người nghe dễ theo dõi cuộc trò chuyện hơn.
Kỷ nguyên mới của dịch thuật thời gian thực
Mục tiêu lớn hơn của Gemini 3.5 Live là đưa dịch thuật trực tiếp vượt ra khỏi các màn trình diễn công nghệ để trở thành một công cụ giao tiếp hằng ngày. Bằng cách cho phép các cuộc trò chuyện đa ngôn ngữ diễn ra gần như theo thời gian thực mà không yêu cầu người dùng thay đổi cách nói chuyện, Gemini 3.5 Live Translate có thể giúp việc giao tiếp đa ngôn ngữ trở nên thực tế hơn đối với doanh nghiệp, tổ chức và cá nhân.
Xu hướng này cho thấy ngành công nghệ đang bước vào một giai đoạn mới, nơi dịch thuật AI theo thời gian thực ngày càng phổ biến. Trong thời gian gần đây, AirPods Pro 3 được Apple giới thiệu với tính năng Live Translation. Google Translate dần triển khai tính năng dịch trực tiếp qua tai nghe trên cả thiết bị Apple và Android. Tại sự kiện CES 2026, nhiều thiết bị dịch thuật cầm tay thời gian thực cũng được giới thiệu. Gemini 3.5 Live Translate chỉ là sản phẩm mới nhất trong làn sóng công nghệ dịch thuật ứng dụng AI.
Sự phát triển này phản ánh nhu cầu ngày càng lớn về việc giao tiếp hiệu quả giữa các nền văn hóa khác nhau, giúp du lịch, học ngoại ngữ và hợp tác quốc tế trở nên thuận tiện hơn bao giờ hết.
Cách sử dụng Dịch trực tiếp trên Google Dịch
- Mở ứng dụng Google Dịch trên thiết bị.
- Chọn Dịch trực tiếp ở góc dưới bên trái màn hình. Thiết lập cặp ngôn ngữ nguồn (hoặc cho phép Google tự động phát hiện ngôn ngữ) và đích.
- Màn hình hiển thị các chế độ: Đang nghe (kết nối tai nghe để nghe bản dịch theo thời gian thực), Cuộc trò chuyện (bản dịch phát ra loa ngoài trên điện thoại) và Chỉ văn bản. Lựa chọn chế độ theo nhu cầu sử dụng rồi chọn Bắt đầu.



