Mini PC AMD Ryzen AI Max+ 395: RAM 128GB, chạy AI 235 tỷ tham số

AMD giới thiệu mini PC Ryzen AI Max+ 395 với RAM 128GB, gấp 8 lần RTX 5080, cho phép chạy mô hình AI 235 tỷ tham số offline, tiết kiệm chi phí thuê bao.

Saigon Gazette 16/06/2026 06:15

Mini PC AMD Ryzen AI Max+ 395: RAM 128GB, chạy AI 235 tỷ tham số

Chỉ vài năm trước, việc chạy một mô hình AI có quy mô hàng trăm tỷ tham số là đặc quyền của những trung tâm dữ liệu khổng lồ. Các doanh nghiệp phải chi hàng chục nghìn, thậm chí hàng trăm nghìn USD cho hệ thống máy chủ chuyên dụng cùng nhiều GPU cao cấp. Với phần lớn người dùng cá nhân, đây là điều gần như không thể tiếp cận.

Thế nhưng, CEO AMD Lisa Su đã giới thiệu một mini PC với kích thước chỉ tương đương hộp cơm, nhưng sức mạnh có thể chạy được mô hình AI tới 235 tỷ tham số – quy mô vốn thường gắn liền với các hệ thống máy chủ hoặc dịch vụ đám mây.

Sức mạnh từ Ryzen AI Max+ 395

Bên trong chiếc mini PC này là Ryzen AI Max+ 395, con chip thuộc dòng Strix Halo mới nhất của AMD. Với 16 nhân Zen 5 và khối NPU đạt 50 TOPS, đây đã là một bộ xử lý rất mạnh. Tuy nhiên, điều khiến giới phát triển AI đặc biệt chú ý lại nằm ở bộ nhớ.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Trong nhiều năm qua, cuộc đua AI gần như được quyết định bởi GPU. NVIDIA thống trị thị trường nhờ hiệu năng vượt trội và hệ sinh thái CUDA. Nhưng khi các mô hình AI ngày càng lớn, bộ nhớ trở thành vấn đề. Ngay cả những GPU mạnh nhất dành cho người dùng phổ thông hiện nay cũng bị giới hạn bởi dung lượng VRAM. RTX 5080 chỉ có 16GB VRAM, trong khi RTX 5090 sở hữu 32GB – ấn tượng cho game hay đồ họa, nhưng là rào cản với mô hình AI hàng chục hoặc hàng trăm tỷ tham số.

RAM 128GB: Lợi thế vượt trội

AMD đang khai thác khoảng trống đó. Strix Halo là chip x86 đầu tiên trên thế giới cho phép CPU và GPU dùng chung một vùng bộ nhớ thống nhất lên tới 128GB, gấp 8 lần RTX 5080 và gấp 4 lần RTX 5090. Trên Linux, GPU của chip này có thể sử dụng tới 110GB.

Để chạy một mô hình AI lớn, toàn bộ tham số phải được nạp vào bộ nhớ. Nếu không đủ, hệ thống phải liên tục đẩy dữ liệu ra ngoài và nạp lại, khiến tốc độ xử lý giảm mạnh. Chính lợi thế này giải thích tại sao trong bài kiểm tra inference trên DeepSeek R1, thiết bị AMD vượt RTX 5080 hơn 3 lần về tốc độ, vì mô hình đó không vừa trong 16GB VRAM của NVIDIA và buộc phải chạy chậm do offload liên tục.

Khả năng chạy offline và tiết kiệm chi phí

Về thực tế sử dụng, thiết bị này chạy được Qwen3 235B hoàn toàn, DeepSeek V3 thoải mái và Llama 3.3 70B với dung lượng bộ nhớ còn dư. Tất cả đều offline, không có gì rời khỏi máy, không giới hạn số lượng yêu cầu, không bị cắt truy cập lúc 3 giờ sáng. Người dùng chỉ cần cài Ollama hoặc LM Studio, tải mô hình về và trỏ bất kỳ công cụ AI nào đang dùng về địa chỉ localhost.

Không chỉ yếu tố kỹ thuật, bài toán tài chính phía sau thiết bị này mới là điều thực sự hấp dẫn. Một người dùng AI chuyên sâu hiện đang trả khoảng 200 USD mỗi tháng cho Claude Code Max, thêm 200 USD cho ChatGPT Pro, 20 USD cho Cursor và 20 USD cho Gemini, tổng cộng 5.280 USD mỗi năm chỉ để duy trì quyền truy cập. Chiếc GMKtec EVO-X2 trang bị chip Ryzen AI Max+ 395 bản 128GB có giá từ 1.800 đến 2.500 USD tùy thời điểm. Với mức chi phí subscription hiện tại, thiết bị này tự hoàn vốn trong vòng 9-10 tháng và sau đó chạy miễn phí mãi mãi.

Đối với các luật sư lo ngại về bảo mật hồ sơ, các lập trình viên không muốn bị đếm token hay các startup sợ hóa đơn cloud, đây là một phép tính khác hẳn so với trước đây.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Giới hạn cần cân nhắc

Tuy nhiên, bức tranh sẽ không đầy đủ nếu bỏ qua những giới hạn thực tế. Băng thông bộ nhớ của chip này chỉ đạt khoảng 256 GB/s, thấp hơn đáng kể so với mức trên 1.000 GB/s của các GPU rời cao cấp hay Apple Silicon Max và Ultra. Ở giai đoạn prefill, tức là xử lý đầu vào trước khi sinh kết quả, thiết bị chậm hơn khoảng 3 lần so với các giải pháp dùng tensor core của NVIDIA. Với những tác vụ coding nặng hoặc agentic work với context dài, đây là điểm nghẽn thực sự.

Hệ sinh thái phần mềm ROCm của AMD cũng vẫn tụt hậu so với CUDA của NVIDIA khoảng 12 đến 18 tháng về độ hỗ trợ cho các nghiên cứu mới nhất. Nói cách khác, AMD đang thắng ở khả năng chứa những mô hình lớn, chứ chưa hẳn thắng trong mọi khía cạnh của AI.