Xiaomi mở rộng tham vọng AI với bộ ba mô hình MiMo-V2 mới
Xiaomi tiếp tục đẩy mạnh hoạt động trong lĩnh vực mô hình ngôn ngữ lớn (LLM) bằng việc chính thức giới thiệu ba mô hình mới: MiMo-V2-Pro, MiMo-V2-Omni và MiMo-V2-TTS. Động thái này diễn ra sau khi hãng đã ra mắt MiMo-7B vào tháng 5/2025 và MiMo-V2-Flash vào tháng 12 cùng năm, cho thấy chiến lược phát triển AI bài bản và liên tục của gã khổng lồ công nghệ Trung Quốc.
Tích hợp sâu và giá API cạnh tranh
Hiện tại, cả ba mô hình mới đã được tích hợp vào nhiều nền tảng trong hệ sinh thái của Xiaomi, bao gồm MiMo Studio, Xiaomi Browser và Kingsoft Office. Chúng cũng có thể truy cập thông qua các công cụ dành cho nhà phát triển như OpenClaw, OpenCode và Cline. Để khuyến khích sử dụng, Xiaomi còn cung cấp chương trình dùng thử miễn phí một tuần cho các nhà phát triển, giúp họ trải nghiệm và đánh giá khả năng của các mô hình này trước khi quyết định đầu tư.
MiMo-V2-Pro: Mô hình chủ lực cho thời đại agent
MiMo-V2-Pro được Xiaomi định vị là mô hình chủ lực, hướng tới việc xử lý các tác vụ thực tế phức tạp trong cái mà hãng gọi là “thời đại agent”. Mô hình này sở hữu hơn 1TB tổng tham số và cửa sổ ngữ cảnh 1MB, cho phép xử lý các tác vụ như điều phối quy trình làm việc và lập kế hoạch dài hạn mà không cần sự can thiệp của con người, đặc biệt trong các khung agent.
Theo Xiaomi, hiệu năng của MiMo-V2-Pro tiệm cận với các mô hình hàng đầu như Claude Opus 4.6, nhưng chi phí sử dụng qua API lại thấp hơn đáng kể. Giá khởi điểm là 1 USD (tương đương khoảng 26.200 đồng) cho mỗi một triệu tokens đối với các ngữ cảnh nhỏ, và sẽ tăng dần cho các ngữ cảnh lớn hơn. MiMo-V2-Pro đã được tích hợp vào bộ công cụ WPS Office của Kingsoft, hỗ trợ các ứng dụng Word, Excel, PowerPoint và PDF, mang lại trải nghiệm làm việc thông minh hơn cho người dùng.
MiMo-V2-Omni và MiMo-V2-TTS: Đột phá trong đa phương tiện và giọng nói
MiMo-V2-Omni được thiết kế để xử lý các tác vụ đa phương thức, với khả năng xử lý đồng thời âm thanh, hình ảnh và video. Xiaomi cho biết mô hình này có hiệu năng nổi bật trong các lĩnh vực như hiểu âm thanh và suy luận hình ảnh. Nó có thể xử lý các đoạn âm thanh dài, tình huống nhiều người nói và phân tích kết hợp âm thanh - video, mở rộng phạm vi ứng dụng vượt ra ngoài văn bản. Theo đánh giá của hãng, khả năng hiểu âm thanh của MiMo-V2-Omni thậm chí còn vượt qua Gemini 3 Pro trong một số trường hợp cụ thể.
MiMo-V2-TTS là mô hình tổng hợp giọng nói của Xiaomi, cho phép điều chỉnh chi tiết về tông giọng, cảm xúc và phong cách nói. Mô hình này hỗ trợ nhiều phương ngữ tiếng Trung và có thể sử dụng cho cả hội thoại tự nhiên lẫn hát, hứa hẹn mang lại trải nghiệm âm thanh sống động và cá nhân hóa cao cho các ứng dụng như trợ lý ảo, giải trí và giáo dục.
Với việc ra mắt bộ ba mô hình MiMo-V2, Xiaomi không chỉ củng cố vị thế trong cuộc đua AI toàn cầu mà còn mang đến những giải pháp công nghệ tiên tiến, giá cả phải chăng cho cả người dùng cuối và nhà phát triển. Đây là bước tiến quan trọng giúp hãng mở rộng hệ sinh thái phần mềm và thúc đẩy sự phát triển của các ứng dụng thông minh trong tương lai.



