iPhone 17 Pro chạy mô hình AI 400 tỷ tham số nhờ kỹ thuật stream từ SSD

Một đoạn video mới đây đã gây sốc khi chứng minh iPhone 17 Pro có khả năng xử lý mô hình ngôn ngữ lớn (LLM) với quy mô lên đến 400 tỷ tham số. Điều đáng nói là chiếc điện thoại này chỉ được trang bị 12 GB RAM LPDDR5X, một con số quá nhỏ bé so với yêu cầu tối thiểu 200 GB RAM của các mô hình AI cỡ lớn.

Bước đột phá từ dự án Flash-MoE

Người dùng @anemll đã công bố video thử nghiệm trực tiếp trên iPhone 17 Pro với dự án mã nguồn mở Flash-MoE. Kết quả cho thấy thiết bị thực sự có thể chạy mô hình AI 400 tỷ tham số, nhưng tốc độ sinh văn bản chỉ đạt 0,6 token mỗi giây. Điều này tương đương với việc phải mất từ 1,5 đến 2 giây để tạo ra một từ duy nhất, một tốc độ cực kỳ chậm so với trải nghiệm thực tế và khiến người dùng khó lòng kiên nhẫn.

Bí quyết công nghệ đằng sau thành công này nằm ở cách Flash-MoE vận hành. Thay vì cố gắng nạp toàn bộ mô hình khổng lồ vào bộ nhớ RAM hạn chế, dự án đã tận dụng bộ nhớ lưu trữ SSD của iPhone để stream dữ liệu trực tiếp lên GPU theo từng phần nhỏ khi cần xử lý. Đây là phương pháp tương tự kỹ thuật memory-mapped inference vốn được áp dụng trên máy tính để bàn khi VRAM không đủ đáp ứng.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Kiến trúc MoE và những ưu điểm riêng tư

Chữ "MoE" trong Flash-MoE là viết tắt của Mixture of Experts, một kiến trúc mô hình đặc biệt. Trong kiến trúc này, chỉ một phần nhỏ trong tổng số 400 tỷ tham số được kích hoạt cho mỗi token sinh ra. Điều này giúp giảm đáng kể lượng dữ liệu cần xử lý cùng lúc, tạo điều kiện thuận lợi để kỹ thuật stream từ SSD hoạt động khả thi trên phần cứng di động.

Một điểm đáng chú ý khi chạy LLM cục bộ theo cách này là toàn bộ quá trình xử lý diễn ra hoàn toàn trên thiết bị, không cần kết nối internet. Điều này đảm bảo quyền riêng tư tuyệt đối cho người dùng vì 100% dữ liệu không hề rời khỏi máy.

Những thách thức và hạn chế còn tồn tại

Tuy nhiên, công nghệ này vẫn phải đối mặt với nhiều thách thức đáng kể:

Tiêu thụ pin rất cao: GPU phải duy trì hoạt động liên tục trong suốt quá trình sinh văn bản, dẫn đến mức tiêu thụ năng lượng lớn.
Tốc độ xử lý cực chậm: Với 0,6 token/giây, đây là tốc độ không thực tế cho hầu hết các ứng dụng hàng ngày.
Khoảng cách giữa "chạy được" và "sử dụng được": Dù đã vượt qua rào cản về phần cứng, nhưng rào cản về hiệu suất thực tế vẫn còn rất xa.

Các nhà phát triển thường sử dụng phiên bản quantized (nén) của LLM để giảm yêu cầu phần cứng. Tuy nhiên, ngay cả bản nén của mô hình 400 tỷ tham số vẫn cần tối thiểu 200 GB RAM nếu chạy theo cách thông thường - một con số vượt xa khả năng của bất kỳ smartphone nào hiện nay.

Thực tế này cho thấy sự khác biệt lớn giữa việc "chạy được" một mô hình AI và việc có thể sử dụng nó một cách thực dụng trong đời sống hàng ngày. Flash-MoE trên iPhone 17 Pro đã thành công vượt qua rào cản đầu tiên về khả năng xử lý, nhưng với tốc độ chỉ 0,6 token/giây, rào cản thứ hai về tính ứng dụng thực tế vẫn còn là một chặng đường dài phía trước.