FPT và NVIDIA phát hành tập dữ liệu Nemotron-Personas-Vietnam giúp AI hiểu người Việt
FPT và NVIDIA phát hành tập dữ liệu Nemotron-Personas-Vietnam

Ngày 6/6/2026, Tập đoàn FPT và NVIDIA chính thức công bố phát hành tập dữ liệu Nemotron-Personas-Vietnam, một bước tiến quan trọng nhằm thúc đẩy phát triển AI chủ quyền tại Việt Nam và mở rộng ra khu vực Đông Nam Á. Tập dữ liệu này được thiết kế để giúp các hệ thống AI hiểu rõ hơn về người dùng Việt Nam, từ đó đưa ra những phản hồi phù hợp với đặc thù văn hóa, địa lý và nhân khẩu học của quốc gia.

Nemotron-Personas-Vietnam: Công cụ giúp AI thấu hiểu người Việt

Nemotron-Personas-Vietnam là một tập dữ liệu tổng hợp, bao gồm 900.000 chân dung người dùng (persona) được xây dựng dựa trên các số liệu thống kê chính thức mới nhất về dân số, khu vực sinh sống, nghề nghiệp và bối cảnh lao động tại Việt Nam. Mỗi persona không phải là dữ liệu của một cá nhân thực tế, mà là bản ghi tổng hợp phản ánh các đặc điểm có thể gặp trong xã hội Việt Nam. Tập dữ liệu được cung cấp miễn phí cho cả mục đích thương mại và phi thương mại, giúp các nhà phát triển dễ dàng tiếp cận và sử dụng.

Tập dữ liệu này là một phần mở rộng của hệ sinh thái NVIDIA Nemotron, bao gồm các mô hình, bộ dữ liệu, tài nguyên đánh giá và thư viện NVIDIA NeMo. Thông qua hệ sinh thái này, các nhà phát triển có thể tùy chỉnh, đánh giá và triển khai các ứng dụng AI phù hợp với nhu cầu tại Việt Nam. Mỗi bản ghi trong tập dữ liệu chứa 31 trường dữ liệu, bao gồm 9 trường persona, 6 trường thuộc tính persona, 15 trường ngữ cảnh và 1 mã định danh duy nhất, cho phép dễ dàng chọn lọc và khai thác các nhóm dữ liệu phù hợp với từng bài toán cụ thể.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Hợp tác FPT và NVIDIA: Xây dựng AI bản địa hóa

Sự hợp tác giữa FPT và NVIDIA xuất phát từ mục tiêu chung là cung cấp các mô hình, bộ dữ liệu và thư viện mở, hiệu quả cho cộng đồng phát triển AI. Các nguồn lực này giúp nhà phát triển xây dựng hệ thống AI có khả năng phản ánh ngôn ngữ, văn hóa, quy định, hạ tầng dữ liệu và mục tiêu kinh tế của từng quốc gia, thay vì phụ thuộc hoàn toàn vào các mô hình tổng quát toàn cầu.

Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để xây dựng các tập dữ liệu tổng hợp ở quy mô dân số, có thể kiểm chứng dựa trên đặc điểm nhân khẩu học và sẵn sàng cho cộng đồng AI sử dụng. Với vai trò là NVIDIA Preferred Partner, FPT đóng góp chuyên môn địa phương, phương pháp xác thực, cơ sở hạ tầng dữ liệu và năng lực nghiên cứu AI thông qua ba đơn vị chính:

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình
  • FPT Smart Cloud: Cung cấp dịch vụ GPU Cloud với các thế hệ GPU mới của NVIDIA và các nền tảng suy luận AI tiên tiến, phục vụ quá trình phát triển và triển khai tập dữ liệu.
  • Viện Quantum AI & Cyber Security: Cung cấp chuyên môn và năng lực nghiên cứu, tham gia xây dựng phương pháp triển khai và xác thực tập dữ liệu Nemotron-Personas-Vietnam.
  • FPT DC5: Vận hành khảo sát thực địa, đóng góp dữ liệu nguồn qua khảo sát và hỗ trợ quy trình thu thập dữ liệu.

Ứng dụng thực tế: Đưa ngôn ngữ và văn hóa Việt vào AI

Bộ sưu tập Nemotron-Personas mở rộng họ mô hình NVIDIA Nemotron với các tập dữ liệu tổng hợp quy mô dân số dựa trên thống kê nhân khẩu học và lao động thực tế. Tập dữ liệu Nemotron-Personas-Vietnam được phát triển riêng nhằm phản ánh sự đa dạng trong ngôn ngữ, nhân khẩu học và đặc điểm lao động cụ thể của Việt Nam. Tập dữ liệu được phát hành dưới dạng mã nguồn mở trên HuggingFace và tương thích với các thư viện NVIDIA NeMo trong suốt vòng đời phát triển AI, từ chuẩn bị dữ liệu và tinh chỉnh đến sau huấn luyện và triển khai.

PGS.TS. Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT cho biết: "FPT tin rằng chủ quyền AI phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp các nhà phát triển AI địa phương dễ dàng tiếp cận các nguồn lực cần thiết để xây dựng các giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực."

Thúc đẩy AI chủ quyền cho Việt Nam trên quy mô lớn

AI có chủ quyền ngày càng quan trọng với các quốc gia và ngành công nghiệp, nơi các mô hình chung không đủ để đáp ứng các bài toán đặc thù của từng khu vực địa lý, ngành nghề. Các quốc gia cần AI có thể hiểu ngôn ngữ, thích ứng với khuôn khổ pháp lý và phù hợp với bối cảnh địa phương. Việc xây dựng và triển khai AI có chủ quyền đòi hỏi một hạ tầng AI mạnh mẽ phục vụ khối lượng công việc tính toán hiệu năng cao và suy luận ở quy mô lớn.

Với tầm nhìn làm chủ công nghệ AI, FPT liên tục mở rộng hệ sinh thái công nghệ, cho phép các nhà đổi mới AI huấn luyện và triển khai AI trong phạm vi khu vực thông qua ba lớp tích hợp:

  • Dịch vụ GPU Cloud: Cung cấp nền tảng tính toán hiệu năng cao, sử dụng các dòng GPU mới từ NVIDIA để huấn luyện và chạy các mô hình AI.
  • Nền tảng AI sẵn sàng suy luận: Cung cấp các công cụ cần thiết để triển khai các mô hình AI tiên tiến ở quy mô lớn.
  • Ứng dụng AI sẵn dùng: Đưa các khả năng AI chủ quyền trực tiếp đến các doanh nghiệp và tổ chức Việt Nam.

Ba lớp năng lực này hợp thành một hệ sinh thái AI chủ quyền hoàn chỉnh, phục vụ toàn bộ chuỗi giá trị AI từ dữ liệu nền tảng và các mô hình mở đến các sản phẩm AI đã được triển khai và bản địa hóa, được xây dựng cho Việt Nam và có thể nhân rộng ra các quốc gia trong khu vực.