Bộ dữ liệu 'chân dung người Việt' lọt top 15 thế giới, thu hút cộng đồng AI

Một tập dữ liệu mô phỏng đời sống, nghề nghiệp và sở thích của người Việt vừa lọt top 15 thịnh hành trên Hugging Face, cho thấy sức hút ngày càng lớn của dữ liệu bản địa trong cuộc đua AI toàn cầu.

Bộ dữ liệu giúp AI hiểu người Việt hơn

FPT và NVIDIA vừa công bố Nemotron-Personas-Vietnam, một tập dữ liệu tiếng Việt được xây dựng nhằm phục vụ nghiên cứu, huấn luyện và phát triển các hệ thống AI. Đáng chú ý, chỉ sau 4 ngày xuất hiện trên Hugging Face, nền tảng chia sẻ mô hình và dữ liệu AI mã nguồn mở lớn nhất thế giới, tập dữ liệu này đã nhanh chóng lọt vào Top 15 tập dữ liệu thịnh hành toàn cầu. Bảng xếp hạng của Hugging Face phản ánh mức độ quan tâm từ cộng đồng thông qua số lượt tải, lượt yêu thích và các tương tác liên quan.

Theo nhóm phát triển, Nemotron-Personas-Vietnam không phải là một mô hình AI hoàn chỉnh mà là một tập dữ liệu nền. Nói cách khác, đây là nguồn nguyên liệu để các nhà nghiên cứu và doanh nghiệp sử dụng trong quá trình xây dựng, huấn luyện hoặc đánh giá các mô hình AI tiếng Việt.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Điểm đặc biệt của bộ dữ liệu nằm ở việc sử dụng các “persona”, tức những hồ sơ nhân vật mô phỏng nhiều nhóm người Việt khác nhau trong xã hội. Các hồ sơ được xây dựng từ dữ liệu tổng hợp do AI tạo ra, không chứa thông tin cá nhân của người thật. Mỗi hồ sơ được mô tả thông qua nhiều đặc điểm như nghề nghiệp, trình độ học vấn, kỹ năng, sở thích, độ tuổi, giới tính, tình trạng hôn nhân, khu vực sinh sống hay mục tiêu nghề nghiệp. Cách tiếp cận trên giúp tái hiện tương đối đa dạng bức tranh về người dùng Việt Nam trong nhiều bối cảnh khác nhau.

900.000 chân dung trong một tập dữ liệu mở

Phiên bản phát hành công khai của Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng khoảng 900.000 persona tiếng Việt với tổng dung lượng 118 triệu token. Trong lĩnh vực AI, token có thể được hiểu là những đơn vị ngôn ngữ nhỏ mà mô hình sử dụng để đọc và xử lý văn bản. Quy mô hàng trăm triệu token cho thấy đây là một nguồn dữ liệu tương đối lớn, đủ để hỗ trợ nhiều hoạt động nghiên cứu và phát triển AI.

Tập dữ liệu bao phủ các địa phương lớn như Hà Nội, TP.HCM, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai theo địa giới hành chính mới của Việt Nam sau đợt sắp xếp năm 2025. Nhờ được mô tả theo nhiều chiều thông tin khác nhau, các nhà phát triển có thể dễ dàng lọc và tạo ra những nhóm người dùng cụ thể phục vụ từng mục đích riêng. Chẳng hạn, một doanh nghiệp có thể xây dựng dữ liệu dành riêng cho nhóm sinh viên, người lao động trẻ hoặc người dùng tại từng địa phương.

Nemotron-Personas-Vietnam hiện được phát hành theo hình thức mở trên Hugging Face. Điều này đồng nghĩa các nhà nghiên cứu, startup, doanh nghiệp hay cộng đồng lập trình viên đều có thể tiếp cận và sử dụng cho cả mục đích thương mại lẫn phi thương mại khi tuân thủ điều kiện ghi nhận nguồn. Theo FPT, việc công khai bộ dữ liệu sẽ giúp mở rộng nguồn lực cho hệ sinh thái AI trong nước, đặc biệt trong bối cảnh nhiều doanh nghiệp nhỏ và nhóm nghiên cứu vẫn gặp khó khăn khi tiếp cận các tập dữ liệu chất lượng cao bằng tiếng Việt.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Thúc đẩy AI có chủ quyền cho Việt Nam

Trong những năm gần đây, khái niệm “AI có chủ quyền” ngày càng được nhiều quốc gia quan tâm. Khái niệm này nhấn mạnh việc xây dựng các hệ thống AI có khả năng phản ánh ngôn ngữ, văn hóa, quy định và nhu cầu phát triển riêng của từng quốc gia thay vì phụ thuộc hoàn toàn vào các mô hình toàn cầu.

FPT cho rằng phần lớn các mô hình AI phổ biến hiện nay được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây. Vì vậy, khi áp dụng vào Việt Nam, các hệ thống này đôi khi chưa hiểu đầy đủ sự khác biệt về ngôn ngữ, vùng miền, văn hóa hay cách giao tiếp của người dùng trong nước. Hệ quả là có thể dẫn tới những phản hồi thiếu tự nhiên hoặc chưa có sự phù hợp với bối cảnh địa phương.

Ông Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT, cho biết AI có chủ quyền cần được xây dựng từ nền tảng dữ liệu phản ánh đúng ngôn ngữ, văn hóa và kinh tế của từng quốc gia. Theo ông Bách, Nemotron-Personas-Vietnam là một bước đi nhằm giúp cộng đồng phát triển AI tại Việt Nam tiếp cận các nguồn lực cần thiết để xây dựng các giải pháp dành riêng cho người Việt.

Trong khuôn khổ dự án, NVIDIA đóng góp khung phương pháp Nemotron-Personas, thư viện dữ liệu tổng hợp NVIDIA NeMo Data Designer cùng các công cụ hỗ trợ tạo dữ liệu quy mô lớn. Trong khi đó, FPT đảm nhiệm vai trò cung cấp hiểu biết bản địa, xác thực dữ liệu, hạ tầng tính toán và năng lực nghiên cứu AI.

Trên thế giới, NVIDIA cũng đã phát triển các bộ dữ liệu tương tự cho nhiều quốc gia và khu vực như Mỹ, Nhật Bản, Ấn Độ, Singapore, Brazil hay Pháp. Việc Việt Nam xuất hiện trong hệ sinh thái này cho thấy nhu cầu ngày càng lớn đối với các nguồn dữ liệu bản địa phục vụ phát triển AI. Đồng thời, đây được xem là một bước tiến nhằm xây dựng các hệ thống AI hiểu người Việt hơn, phục vụ tốt hơn nhu cầu trong nước và tạo nền tảng để mở rộng ra thị trường khu vực trong tương lai.