NVIDIA vừa chính thức giới thiệu Nemotron 3 Nano Omni, một mô hình trí tuệ nhân tạo đa phương thức mới, hướng đến các doanh nghiệp và nhà phát triển. Mô hình này có khả năng xử lý đồng thời nhiều loại dữ liệu như video, âm thanh, hình ảnh và văn bản trong cùng một hệ thống thống nhất.
Tốc độ vượt trội và chi phí tối ưu
Theo công bố từ NVIDIA, Nemotron 3 Nano Omni là mô hình mã nguồn mở, được thiết kế đặc biệt để phục vụ các tác vụ AI kiểu tác tử – những hệ thống có khả năng tự quan sát dữ liệu, suy luận và đưa ra phản hồi một cách thông minh. Điểm nhấn đáng chú ý là tốc độ xử lý của mô hình mới này nhanh hơn tới 9 lần so với nhiều mô hình mở cùng loại khi hoạt động ở mức tương tác tương đương. Điều này không chỉ giúp giảm đáng kể chi phí vận hành mà còn tăng cường khả năng mở rộng khi triển khai trên quy mô lớn.
Kiến trúc tích hợp đa phương thức
Khác với cách xây dựng truyền thống phải tách riêng phần xử lý hình ảnh và âm thanh, Nemotron 3 Nano Omni kết hợp cả hai bộ mã hóa trong một kiến trúc 30B-A3B dạng mixture-of-experts lai. Phương pháp này giúp hệ thống loại bỏ nhu cầu sử dụng các mô hình cảm nhận độc lập, từ đó nâng cao hiệu quả suy luận. NVIDIA khẳng định mô hình vẫn duy trì độ chính xác cao khi xử lý nhiều loại dữ liệu khác nhau, đồng thời chi phí vận hành được giữ ở mức thấp hơn so với các giải pháp truyền thống.
Dẫn đầu các bảng xếp hạng
NVIDIA cho biết Nemotron 3 Nano Omni hiện đang dẫn đầu 6 bảng xếp hạng liên quan đến phân tích tài liệu phức tạp, cũng như khả năng hiểu video và âm thanh. Đối với doanh nghiệp, đây là nhóm năng lực quan trọng vì AI có thể đọc chữ, hiểu cấu trúc tài liệu, hình ảnh minh họa, bảng biểu, nội dung trên màn hình và cả ngữ cảnh trong âm thanh hoặc video.
Ứng dụng trong hệ thống AI lớn hơn
NVIDIA định vị Nemotron 3 Nano Omni như một thành phần trong hệ thống AI tổng thể. Mô hình này có thể hoạt động cùng các mô hình đám mây độc quyền, hoặc kết hợp với những mô hình khác trong dòng Nemotron như Nemotron 3 Super cho các tác vụ cần xử lý liên tục với tần suất cao, hay Nemotron 3 Ultra cho các bài toán lập kế hoạch phức tạp hơn. Sự phối hợp này cho phép xây dựng các tác tử phụ cho những quy trình như điều khiển máy tính, phân tích tài liệu, hoặc suy luận từ âm thanh và video.
Khả năng quan sát giao diện máy tính
Trong lĩnh vực sử dụng máy tính, mô hình được dùng để giúp tác tử quan sát giao diện đồ họa, hiểu nội dung đang hiển thị trên màn hình và theo dõi trạng thái giao diện theo thời gian. NVIDIA dẫn ví dụ H Company đã áp dụng Nemotron 3 Nano Omni cho tác tử sử dụng máy tính mới của hãng, với độ phân giải đầu vào gốc 1920 x 1080 pixel để tăng khả năng suy luận từ hình ảnh. Trong các đánh giá ban đầu trên bộ đo OSWorld, cách kết hợp này cho thấy tiến bộ rõ rệt khi xử lý những giao diện đồ họa phức tạp.
Phân tích tài liệu toàn diện
Trong lĩnh vực phân tích tài liệu, mô hình có thể đọc tài liệu, biểu đồ, bảng số liệu, ảnh chụp màn hình và dữ liệu hỗn hợp nhiều định dạng, từ đó giúp hệ thống AI hiểu đồng thời bố cục trực quan lẫn phần nội dung chữ. Đây là năng lực hữu ích cho các công việc phân tích nội bộ doanh nghiệp hoặc kiểm tra tuân thủ.
Xử lý âm thanh và video thông minh
Với âm thanh và video, NVIDIA cho biết Nemotron 3 Nano Omni có thể giữ được ngữ cảnh xuyên suốt giữa lời nói, hình ảnh xuất hiện và tài liệu liên quan, thay vì tạo ra các bản tóm tắt rời rạc. Mô hình này hiện đã được một số công ty như Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir và Pyler áp dụng, trong khi Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle và Zefr đang trong giai đoạn đánh giá.



