Google DeepMind vừa chính thức giới thiệu Gemma 4, một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở, cho phép người dùng tải về và chạy trực tiếp trên thiết bị cá nhân mà không cần kết nối Internet. Với khả năng suy luận, phân tích hình ảnh và viết mã, Gemma 4 hứa hẹn mang đến trải nghiệm AI mạnh mẽ ngay trên máy tính hoặc điện thoại thông minh.
Bốn phiên bản của Gemma 4
Dòng mô hình Gemma 4 được phân phối với bốn phiên bản: E2B, E4B, 31B và 26B A4B. Hai phiên bản E2B và E4B yêu cầu RAM tối thiểu từ 4-6 GB (đối với định dạng 4-bit) hoặc 10-16 GB (định dạng 16-bit), phù hợp để chạy trên các thiết bị di động và máy tính có cấu hình trung bình. Trong khi đó, phiên bản 26B A4B yêu cầu tối thiểu 18 GB RAM, còn phiên bản 31B cần ít nhất 20 GB RAM.
Lợi thế khi chạy AI cục bộ
Theo MindStudio, việc chạy mô hình AI cục bộ mang lại nhiều lợi ích, bao gồm tính bảo mật cao hơn và không phát sinh chi phí sử dụng. Tuy nhiên, hiệu năng hoạt động của mô hình phụ thuộc vào phần cứng của thiết bị. Người dùng di động có thể cài đặt ứng dụng Google AI Edge Gallery, trong khi người dùng máy tính cần sử dụng các công cụ như LM Studio hay Ollama.
Trải nghiệm thực tế trên máy tính và smartphone
LM Studio trên máy tính cho phép người dùng chọn và tải Gemma 4 ngay từ lần chạy đầu tiên. Phiên bản E4B có dung lượng khoảng 6,3 GB, hỗ trợ suy luận và phân tích hình ảnh. Trên di động, phiên bản E4B có dung lượng 3,6 GB khi tải qua Google AI Edge Gallery. Sau khi tải xong, người dùng được chuyển đến giao diện tương tác dạng chatbot. Trong phần chọn mô hình, nhấn vào Gemma 4 E4B, sau đó chọn Load Model và chờ khoảng một phút để khởi động mô hình.
Gemma 4 E4B hỗ trợ tương tác bằng tiếng Việt. Thử nghiệm trên Mac mini M4 (RAM 16 GB) với câu lệnh "Xin chào", mô hình mất khoảng 8 giây để suy luận và phản hồi. Khi được hỏi "Bạn có thể làm được gì?", Gemma 4 E4B mất khoảng 13 giây để hiểu và dịch câu lệnh sang tiếng Anh, sau đó viết dần câu trả lời. Thời gian phản hồi có thể khác nhau tùy vào phần cứng. Với cùng câu hỏi, mô hình mất khoảng 45 giây để trả lời đầy đủ trên iPhone 15 Pro.
Khả năng suy luận và xử lý câu hỏi logic
Gemma 4 E4B xử lý tốt các câu hỏi suy luận đơn giản, chẳng hạn như "Một chuyến tàu khởi hành lúc 8h15 sáng và đến nơi lúc 11h47 sáng. Chuyến đi kéo dài bao lâu?" và trả lời nhanh chóng, chính xác. Với câu hỏi logic như "Có bao nhiêu chữ 'r' trong từ 'strawberry'?" - vốn từng làm khó nhiều LLM thế hệ trước - Gemma 4 E4B chỉ mất khoảng 3 giây để đưa ra đáp án chính xác. Đối với một câu hỏi phức tạp hơn, sau chuỗi lập luận tỉ mỉ, Gemma 4 trả lời đúng sau 1 phút 6 giây. Để so sánh, Gemini 3 Thinking mất khoảng 15 giây, GPT-5.5 cũng mất thời gian tương tự.
Khả năng đa phương thức và xử lý hình ảnh
Điểm nổi bật của Gemma 4 E4B là khả năng đa phương thức, hỗ trợ đầu vào hình ảnh. Mô hình có thể phân tích ảnh và trả lời các câu hỏi về địa danh, chi tiết nổi bật, thời tiết và khí hậu trong ảnh. Khi được yêu cầu trích xuất toàn bộ chữ trong ảnh chụp trang tạp chí, Gemma 4 mất hơn 30 giây để trả kết quả - thời gian không chênh lệch nhiều so với các mô hình chạy online.
Sử dụng trên smartphone và các tính năng khác
Trên ứng dụng smartphone, người dùng cần chọn tính năng từ giao diện chính (AI Chat, Ask Image...), sau đó chọn mô hình để sử dụng. Do hoạt động dựa trên GPU, thiết bị có thể nóng lên trong quá trình AI suy luận. Người dùng cũng có thể tải file tài liệu định dạng DOCX hay PDF và yêu cầu phân tích hoặc tóm tắt văn bản.
Kiểm soát hiệu quả và khả năng lập trình
Theo đại diện Google, thế hệ mô hình mới kiểm soát việc tạo chuỗi ký tự hiệu quả, hạn chế tình trạng suy nghĩ thừa thãi, giúp giảm áp lực tính toán cho card đồ họa và bộ nhớ máy tính. Gemma 4 cũng có thể lập trình. Trong một thử nghiệm, mô hình được yêu cầu sử dụng HTML, CSS và JavaScript để xây dựng hệ điều hành chạy trực tiếp trên trình duyệt. Người dùng cần tăng độ dài Context Length trước khi khởi động để đảm bảo mô hình đưa ra đáp án đầy đủ. Dù vậy, AI vẫn có thể gặp sai sót khi file HTML chưa hoàn chỉnh hoặc một số thành phần trong ứng dụng không hoạt động.
Hạn chế và lưu ý
Những câu lệnh đòi hỏi nhiều bước hoặc dữ liệu phức tạp có thể làm khó Gemma 4. Một số câu lệnh có thể tiêu tốn nhiều token xử lý. Việc đặt giới hạn token quá lớn có thể tiêu tốn nhiều RAM hoặc VRAM của máy.



