PewDiePie tự huấn luyện AI, tuyên bố vượt GPT-4 rồi 'quay xe' vì lỗi dữ liệu

Hành trình tự huấn luyện AI đầy thử thách của PewDiePie

YouTuber nổi tiếng PewDiePie vừa công bố chi tiết về dự án tự huấn luyện một mô hình AI trong nhiều tháng, với mục tiêu ban đầu là cải thiện khả năng lập trình. Trong video mới nhất, anh tiết lộ mô hình do mình tinh chỉnh từng có thời điểm vượt qua GPT-4 trên một bài benchmark lập trình, nhưng sau đó phát hiện kết quả bị sai lệch do trùng dữ liệu huấn luyện.

Khởi đầu từ fine-tune mô hình có sẵn

Không xây dựng AI từ con số 0, PewDiePie thừa nhận anh chỉ fine-tune một mô hình ngôn ngữ lớn có sẵn, cụ thể là phiên bản 32B của Qwen 2.5. Mục tiêu của anh không phải cạnh tranh thương mại mà để học cách huấn luyện AI và hiểu rõ quy trình phía sau những hệ thống trí tuệ nhân tạo phức tạp.

Benchmark mà anh sử dụng có tên Aider Polyglot, một bài kiểm tra đánh giá khả năng lập trình ở nhiều ngôn ngữ khác nhau. Theo lời PewDiePie, các mô hình hàng đầu như DeepSeek 2.5 hay Llama 4 Maverick chỉ đạt khoảng hơn 18% ở định dạng diff format. Mô hình ban đầu anh chọn để huấn luyện chỉ đạt 8%, và khi đổi sang định dạng khác có thể lên 16%.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Quá trình thu thập và xử lý dữ liệu đầy gian nan

Từ đây, anh bắt đầu quá trình thu thập và xử lý dữ liệu một cách công phu. PewDiePie cho biết đã tổng hợp khoảng 100.000 mẫu dữ liệu theo dạng bài toán - lời giải, kết hợp dữ liệu công khai, dữ liệu từ GitHub và cả dữ liệu tổng hợp do AI mạnh hơn tạo ra. Tuy nhiên, anh cũng thừa nhận dữ liệu tổng hợp có rủi ro cao vì AI có thể tạo ra lời giải trông đúng nhưng thực chất sai.

Sau nhiều tháng chuẩn bị, lần huấn luyện đầu tiên khiến mô hình còn tệ hơn ban đầu. Anh phát hiện vấn đề nằm ở bộ kiểm thử và dữ liệu nhiễu. Sau khi sửa lại, điểm số ổn định quanh mức 16%, tương đương trần hiệu suất trước đó.

Bước đột phá và sự thất vọng

Để cải thiện thêm, PewDiePie bổ sung dữ liệu có phần "reasoning", tức buộc mô hình phải viết ra các bước suy nghĩ trước khi đưa ra lời giải. Đây là kỹ thuật thường giúp AI xử lý bài toán phức tạp tốt hơn. Sau khi fine-tune thêm khoảng 15.000 mẫu reasoning, điểm số ban đầu đạt 17%, nhưng do benchmark có yếu tố ngẫu nhiên, anh tiếp tục chạy lại nhiều lần.

Ở một lần chạy đặc biệt, mô hình đạt 19,6%. PewDiePie hào hứng tuyên bố đã vượt GPT-4 ở thời điểm tháng 11. Tuy nhiên, niềm vui ngắn chẳng tày gang khi ngay sau đó anh phát hiện mình chưa kiểm tra hiện tượng benchmark contamination - tức dữ liệu huấn luyện có thể trùng với câu hỏi trong bộ kiểm tra. Sau khi rà soát lại kỹ lưỡng, anh xác nhận có một phần dữ liệu bị trùng và buộc phải hủy kết quả đầy hứa hẹn này.

Không từ bỏ và những cải thiện cuối cùng

Không dừng lại ở thất bại, PewDiePie quyết định huấn luyện lại trên toàn bộ tập dữ liệu đã được làm sạch. Trong quá trình này, anh còn phát hiện trước đó mình đã fine-tune nhầm phiên bản thường thay vì phiên bản chuyên lập trình của Qwen 2.5. Khi chuyển sang bản coder chuyên biệt, kết quả ban đầu thậm chí rơi xuống mức thấp đáng ngạc nhiên: 4,4%.

Sau khi điều chỉnh cẩn thận và huấn luyện lại với tham số tối ưu hơn, điểm số dần tăng lên 25%. Một phát hiện quan trọng khác cho thấy benchmark trước đó chưa chạy đầy đủ các phần như C++ và JavaScript. Sau khi sửa lại bài test cho hoàn chỉnh, mô hình đạt 36%.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Tiếp tục hậu huấn luyện thêm 1.500 mẫu trong 5 epoch, điểm số cuối cùng đạt 39,1% - một con số đáng kể so với khởi đầu. Dù vậy, PewDiePie cũng thành thật thừa nhận ngay sau khi hoàn thành dự án, phiên bản Qwen 3 đã ra mắt và đạt khoảng 40% trên cùng benchmark, đồng nghĩa mô hình của anh vẫn chưa vượt qua thế hệ mới nhất của các hệ thống AI chuyên nghiệp.

Những thách thức về phần cứng và bài học kinh nghiệm

Toàn bộ quá trình không chỉ gặp lỗi phần mềm mà còn đối mặt với nhiều sự cố phần cứng nghiêm trọng. Anh cho biết từng làm cháy dây nguồn do hệ thống tiêu thụ hơn 2.000 W, một GPU bị hỏng hoàn toàn và máy tính liên tục gặp lỗi do cấu hình tự lắp ghép để đáp ứng tải tính toán cao.

PewDiePie nhấn mạnh rằng đạt điểm cao ở một benchmark đơn lẻ không đồng nghĩa với năng lực toàn diện của AI. Anh cho biết cần kiểm tra thêm trên các bài test khác như SWE-bench trước khi cân nhắc chia sẻ mô hình công khai. Với anh, dự án này chủ yếu là hành trình học hỏi thông qua thất bại và thử nghiệm, thay vì tạo ra một sản phẩm cạnh tranh trực tiếp với các công ty AI lớn.

Hành trình của PewDiePie minh họa rõ nét những thách thức mà ngay cả những người có tài nguyên và quyết tâm cũng phải đối mặt khi tự huấn luyện AI, từ vấn đề dữ liệu nhiễm đến những hạn chế về phần cứng và sự cạnh tranh không ngừng từ các mô hình thương mại.