Xiaomi vừa công bố dòng mô hình giọng nói toàn diện MiMo-V2.5, bao gồm hệ thống tổng hợp tiếng nói (TTS) và nhận dạng giọng nói (ASR), mở ra kỷ nguyên mới cho trợ lý AI tự động. Đây là bản nâng cấp từ mô hình MiMo-V2-TTS ra mắt hồi tháng 3, với khả năng kiểm soát chi tiết ngữ điệu, cảm xúc và phong cách nói.
Ba phiên bản MiMo-V2.5-TTS
Dòng MiMo-V2.5-TTS gồm ba mô hình riêng biệt, tất cả đều miễn phí trong thời gian giới hạn trên nền tảng MiMo Open Platform của Xiaomi. Các mô hình này dùng chung nền tảng xử lý hướng dẫn phong cách, kiểm soát âm thanh qua thẻ nội tuyến và đọc hiểu văn bản, nhưng phục vụ các nhu cầu khác nhau.
- MiMo-V2.5-TTS cơ bản: Đi kèm bộ giọng đọc có sẵn, cho phép điều chỉnh tốc độ nói, ngữ điệu và cảm xúc theo ý muốn.
- MiMo-V2.5-TTS-VoiceDesign: Cho phép người dùng tạo ra giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn.
- MiMo-V2.5-TTS-VoiceClone: Tập trung vào việc sao chép giọng nói của một người cụ thể từ vài mẫu âm thanh ngắn, đồng thời giữ nguyên tính nhất quán qua các phong cách và hướng dẫn khác nhau.
Điểm nổi bật trong cách tiếp cận của Xiaomi là người dùng không cần nhập tham số kỹ thuật phức tạp. Thay vào đó, họ có thể mô tả giọng đọc mong muốn bằng ngôn ngữ tự nhiên, gần giống như đạo diễn đang hướng dẫn một diễn viên lồng tiếng. Với các tình huống phức tạp hơn như nhân vật trong game hay kịch bản phát thanh, hệ thống còn hỗ trợ nhập liệu theo kiểu kịch bản nhiều lớp, trong đó đặc điểm nhân vật, bối cảnh và lời thoại có thể điều chỉnh độc lập mà không làm mất sự nhất quán tổng thể.
Các mô hình này cũng hỗ trợ thẻ âm thanh nội tuyến, cho phép kiểm soát cảm xúc hoặc cách diễn đạt tại từng vị trí cụ thể trong câu. Các thẻ này có thể kết hợp linh hoạt trong cùng một đoạn văn bản và hoạt động được trên cả tiếng Trung lẫn tiếng Anh.
Mô hình nhận dạng giọng nói mã nguồn mở
Về phía nhận dạng giọng nói, Xiaomi phát hành MiMo-V2.5-ASR dưới dạng mã nguồn mở. Đây là hệ thống được thiết kế để xử lý các tình huống thực tế khó đoán, bao gồm hội thoại song ngữ, phương ngữ địa phương và môi trường ồn ào. Mô hình hỗ trợ nhiều phương ngữ tiếng Trung như Ngô, Quảng Đông, Mân Nam và Tứ Xuyên, đồng thời xử lý tốt cả tiếng Anh trong các ngữ cảnh phức tạp.
Người dùng không cần cài đặt ngôn ngữ từ trước, mô hình tự động chuyển đổi giữa tiếng Trung và tiếng Anh theo luồng hội thoại. Đặc biệt, mô hình còn có thể nhận dạng lời bài hát ngay cả khi nhạc nền và giọng hát hòa trộn vào nhau. Với các tình huống nhiều người nói đồng thời, chẳng hạn trong các buổi họp, MiMo-V2.5-ASR có khả năng phân tách và ghi chép các cuộc hội thoại chồng chéo.
Xiaomi cho biết mô hình vẫn giữ được độ chính xác trong môi trường nhiều tiếng ồn hoặc khi thu âm từ khoảng cách xa. Một điểm đáng chú ý là mô hình tự xử lý dấu câu dựa trên cả âm thanh lẫn ngữ cảnh, tạo ra bản ghi chép hoàn chỉnh mà gần như không cần chỉnh sửa thêm.
Xiaomi khẳng định mô hình đạt hiệu suất hàng đầu hoặc gần hàng đầu trên nhiều bài kiểm tra, bao gồm nhận dạng song ngữ, xử lý phương ngữ và chuyển đổi ngôn ngữ linh hoạt. Các mô hình TTS có thể truy cập và thử nghiệm trực tiếp qua MiMo Studio trên nền tảng của Xiaomi, còn mô hình ASR được phát hành kèm trọng số và mã nguồn mở để người dùng tự triển khai hoặc tùy chỉnh thêm.



