Một người mẹ vừa nấu ăn vừa đọc tin nhắn thoại để điện thoại tự chuyển thành văn bản. Một người lớn tuổi bật phụ đề video để không bỏ lỡ nội dung khi thị lực và thính lực suy giảm. Một nhân viên văn phòng dịch hội thoại tiếng nước ngoài ngay trong khung chat mà không cần rời ứng dụng. Những tính năng AI thầm lặng này đã trở thành một phần của đời sống số hàng ngày.
Phía sau những thao tác vài giây là hàng nghìn giờ huấn luyện mô hình, tối ưu thuật toán và tinh chỉnh trải nghiệm của đội ngũ kỹ sư AI người Việt tại Zalo. Trong nhiều năm, AI thường được coi là công nghệ phức tạp, gắn với các khái niệm học thuật hoặc mô hình khổng lồ. Nhưng với Zalo, mục tiêu là đưa AI trở thành một phần tự nhiên trong giao tiếp hàng ngày của người Việt.
AI 'hòa tan' vào trải nghiệm giao tiếp
Từ năm 2024 đến nay, đội ngũ phát triển các tính năng AI tích hợp trên Zalo đã liên tục phát triển và tinh chỉnh các tính năng như Dictation (soạn tin nhắn bằng giọng nói), Voice-to-Text (chuyển tin nhắn thoại thành văn bản), Call Caption (phụ đề cuộc gọi), Translation (dịch tin nhắn) và Sao chép chữ từ ảnh.
Điểm chung của các tính năng này là chúng không tồn tại như những ứng dụng AI độc lập. AI được đưa trực tiếp vào các thao tác giao tiếp quen thuộc. Triết lý này xuất phát từ quan điểm: AI chỉ có ý nghĩa khi giúp trải nghiệm trở nên đơn giản và thuận tiện hơn. Anh Nguyễn Hữu Đức, Product Owner của dự án, chia sẻ: “Công nghệ có thể thay đổi nhanh, nhưng nguyên tắc cốt lõi là tạo ra tính năng dễ dùng và giải quyết nhu cầu thực tế”.
Theo anh Đức, với các tính năng xử lý ngôn ngữ tự nhiên, “tự nhiên” không chỉ là nhận diện đúng từng từ. Kết quả phải dễ đọc, đúng ý người dùng và giống cách người Việt giao tiếp hàng ngày. Đội ngũ phát triển không đánh giá mô hình AI chỉ bằng độ chính xác, mà nhìn vào các tín hiệu thực tế: người dùng có phải sửa lại câu sau khi dùng Dictation không, có bấm gửi ngay không, phụ đề cuộc gọi có rõ ràng không. Những chi tiết nhỏ như ngắt câu, dấu phẩy, viết hoa tên riêng, nhận diện giọng miền Trung, miền Tây hay câu nói đan xen Anh-Việt đều trở thành bài toán quan trọng.
Anh Trần Văn Hòa, Senior Lead AI Engineer, cho biết: “Một mô hình 'giống người Việt' không chỉ nằm ở phản hồi chính xác, mà còn ở việc hiểu cách người Việt ngắt câu, dùng từ lóng, chuyển qua tiếng Anh giữa chừng hay nói nửa câu nhưng người nghe vẫn hiểu”.
Khoảng cách giữa demo và sản phẩm thực
Trong lĩnh vực AI, tạo ra mô hình “hoạt động được” chưa bao giờ là phần khó nhất. Theo đội ngũ kỹ sư, chỉ cần tận dụng mã nguồn mở, xây dựng demo có thể diễn ra nhanh. Nhưng từ demo đến sản phẩm vận hành quy mô hàng chục triệu người dùng là khoảng cách rất lớn.
Giai đoạn đầu, khi chưa có mô hình AI riêng, đội ngũ dựa vào kiến thức tiếng Việt sẵn có và quy tắc ngôn ngữ cơ bản. Cách này giải quyết nhu cầu ngắn hạn nhưng nhanh chóng bộc lộ giới hạn: AI dễ sai chính tả, chưa nghe tốt từ tiếng Anh xen kẽ, độ chính xác giảm với giọng vùng miền hoặc cách nói không chuẩn. Bài toán phức tạp hơn khi người Việt có thói quen giao tiếp linh hoạt: cùng một câu nói phát âm khác nhau giữa vùng miền, nói nhanh, nuốt âm, dùng từ lóng, chuyển đổi liên tục giữa tiếng Việt và tiếng Anh.
Sau khi nghiên cứu nhiều mô hình của Zalo AI và các tập đoàn công nghệ lớn, đội ngũ nhận ra mỗi mô hình đều có giới hạn. Cuối cùng, các kỹ sư quyết định tự huấn luyện mô hình dựa trên kinh nghiệm kế thừa. Hơn 30.000 giờ huấn luyện, nhiều lần thay đổi hướng tiếp cận và hàng loạt thử nghiệm đã diễn ra trước khi tính năng Dictation mượt mà hơn vào tháng 8/2023. Tính đến tháng 5/2026, đội ngũ Zalo AI đã dành hơn 100.000 giờ huấn luyện để 80,2 triệu người dùng Zalo sử dụng tính năng chuyển giọng nói thành văn bản với trải nghiệm tự nhiên và chính xác hơn.
Ngay cả khi hệ thống vận hành ổn định, đội ngũ vẫn tiếp tục tối ưu từng chi tiết nhỏ. Có những bài toán mất hàng tháng chỉ để giải quyết trải nghiệm mà người dùng gần như không để ý. Ví dụ, chuyển lời nói sang đúng định dạng số: người dùng đọc “ngày mười tháng sáu” nhưng muốn thấy “10/06”. Đây là khác biệt giữa đoạn văn khó đọc và tin nhắn tự nhiên để người dùng bấm gửi ngay. Anh Hòa cho biết: “Trong kỹ thuật, team gọi bài toán này là Inverse Text Normalization và Punctuation. Những cải thiện nhỏ này là điểm chạm quyết định trải nghiệm”.
Để xử lý, đội ngũ xây dựng Language Model chuyên phân tích ngữ cảnh giao tiếp. AI được dạy dự đoán khi nào người dùng ngắt nhịp để thêm dấu phẩy, khi nào cụm từ cần viết hoa, hoặc khi nào chuyển sang định dạng số. Riêng tối ưu chuyển đổi số đã mất gần ba tháng phát triển liên tục. Những chi tiết này kết hợp lại quyết định liệu người dùng có cảm thấy AI đủ “mượt” để sử dụng hàng ngày hay không.
Cuộc chiến với từng mili giây
Chất lượng mô hình là một nửa bài toán, nửa còn lại là tốc độ phản hồi. Mô hình AI càng lớn thường dễ đạt chất lượng cao nhưng thời gian xử lý lâu hơn và yêu cầu hạ tầng tính toán lớn. Điều này đặc biệt khó khăn khi triển khai trên nền tảng có hàng chục triệu người dùng đồng thời như Zalo.
Anh Hòa chia sẻ: “Team phải giải quyết cùng lúc hai bài toán gần như trái ngược: model phải đủ chất lượng nhưng cũng phải đủ gọn nhẹ để xử lý real-time”. Các kỹ sư liên tục thử nghiệm phương pháp tối ưu mới để giảm thời gian xử lý. Với Voice-to-text, hệ thống hiện xử lý đoạn audio 10 phút trong khoảng một giây.
Tối ưu AI không chỉ diễn ra ở phía mô hình. Đội ngũ sản phẩm dành nhiều thời gian cho chi tiết nhỏ trong toàn bộ trải nghiệm. Anh Đức cho biết: “Với Dictation, thao tác nhấn giữ được tính toán kỹ: vùng chạm, kích thước, phản hồi hiển thị để người dùng biết hệ thống đang lắng nghe”. Đội ngũ cũng chú trọng tốc độ phản hồi, vì chỉ chậm vài trăm mili giây có thể khiến trải nghiệm kém liền mạch. “Người dùng có thể không nhìn thấy độ trễ bằng mắt, nhưng họ sẽ cảm nhận được ngay lập tức”, anh Đức nói.
Thành công lớn nhất của AI có thể là khi người dùng không còn nghĩ về nó như “AI”. Với anh Đức, khoảnh khắc đáng nhớ nhất là khi thấy vợ mình sử dụng Dictation lúc nấu ăn. “Khi bận rộn với công việc tay chân, gõ tin nhắn rất bất tiện. Dictation giúp người dùng chỉ cần nói để soạn tin nhắn. Đó là tình huống nhỏ nhưng cho thấy AI hỗ trợ giao tiếp hàng ngày”.
Với anh Hòa, khoảnh khắc ý nghĩa nhất đến từ các tình huống đời thường: “Thấy những cô chú lớn tuổi, người lao động phổ thông, người trước đây ngại nhắn tin vì mắt kém hoặc bận rộn, nay thoải mái bấm nút thu âm và để AI Zalo chuyển thành tin nhắn chuẩn xác gửi cho con cháu. Đó là lúc sản phẩm AI thực sự được bình dân hóa và đi vào đời sống một cách vô hình”.
Đội ngũ phát triển các sản phẩm AI in-app trên Zalo bao gồm Product Owner, AI Engineer, Software Engineer, QC, UX/UI Designer. Khoảnh khắc AI thật sự đi vào đời sống không nằm ở bảng biểu tăng trưởng hay thông số kỹ thuật. Nó nằm ở lúc một người mẹ vẫn nhắn tin khi nấu ăn, hay một người lớn tuổi thoải mái gửi tin nhắn thoại cho con cháu. Khi ấy, công nghệ không còn đứng phía trước người dùng. Nó lùi lại phía sau, đủ tự nhiên để trở thành một phần của giao tiếp hàng ngày.



