OpenAI vừa chính thức ra mắt ba tính năng giọng nói mới trong bộ API của mình, nhắm đến các lập trình viên mong muốn xây dựng những ứng dụng có khả năng trò chuyện, dịch thuật và phiên âm theo thời gian thực. Các tính năng này bao gồm GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper, mỗi loại đều có những điểm mạnh riêng biệt.
GPT-Realtime-2: Giọng nói với khả năng suy luận mạnh mẽ
Model mới nhất mang tên GPT-Realtime-2 được thiết kế để tạo ra giọng nói tự nhiên, có thể trò chuyện trực tiếp với người dùng. Điểm khác biệt so với phiên bản trước đó, GPT-Realtime-1.5, là model này được tích hợp khả năng suy luận tương đương với GPT-5. Điều này có nghĩa là nó có thể xử lý những yêu cầu phức tạp hơn, không chỉ đơn thuần trả lời theo các kịch bản có sẵn.
Dịch đồng thời hơn 70 ngôn ngữ
GPT-Realtime-Translate là tính năng dịch thuật theo thời gian thực, được tối ưu để bắt kịp tốc độ hội thoại tự nhiên của người dùng. Tính năng này hỗ trợ hơn 70 ngôn ngữ đầu vào, tức là các ngôn ngữ mà hệ thống có thể nghe và hiểu, cùng với 13 ngôn ngữ đầu ra, là các ngôn ngữ được dịch lại cho người nghe. Điều này mở ra khả năng giao tiếp đa ngôn ngữ một cách mượt mà và hiệu quả.
Phiên âm trực tiếp trong lúc nói chuyện
GPT-Realtime-Whisper mang đến khả năng chuyển giọng nói thành văn bản ngay trong khi cuộc trò chuyện diễn ra, không cần phải chờ đợi cho đến khi kết thúc. Tính năng này đặc biệt phù hợp cho các trường hợp cần ghi lại nội dung hội thoại theo thời gian thực, như trong các cuộc họp, phỏng vấn, hoặc ghi chú nhanh.
OpenAI cho biết: "Những model chúng tôi ra mắt lần này đưa âm thanh thời gian thực vượt qua mô hình hỏi-đáp đơn thuần, hướng tới giao diện giọng nói thực sự có thể làm việc: lắng nghe, suy luận, dịch thuật, phiên âm và thực hiện hành động trong suốt cuộc trò chuyện".
Đối tượng sử dụng và vấn đề bảo mật
Doanh nghiệp muốn mở rộng khả năng hỗ trợ dịch vụ khách hàng là nhóm đối tượng rõ ràng nhất cho các tính năng này. OpenAI cũng chỉ ra rằng các tính năng mới còn phù hợp với nhiều lĩnh vực khác như giáo dục, truyền thông, sự kiện trực tiếp và các nền tảng sáng tạo nội dung.
Về nguy cơ lạm dụng, OpenAI cho biết đã tích hợp các cơ chế bảo vệ để ngăn tính năng bị sử dụng vào mục đích gửi tin rác, lừa đảo hay các hình thức lạm dụng trực tuyến khác. Hệ thống có thể tự động ngắt cuộc trò chuyện khi phát hiện nội dung vi phạm chính sách.
Cả ba model đều nằm trong bộ Realtime API của OpenAI. GPT-Realtime-Translate và GPT-Realtime-Whisper tính phí theo số phút sử dụng, trong khi GPT-Realtime-2 tính phí theo lượng token tiêu thụ.



