AI GPT-5.4 Giải Thành Công Bài Toán Toán Học Khó Nhất Sau 11 Lần Thử
Trong một bước ngoặt đáng chú ý, ChatGPT phiên bản 5.4 đã giải thành công một bài toán toán học cực kỳ phức tạp do nhà toán học Bartosz Naskręcki tạo ra, sau 11 lần chạy độc lập. Không chỉ dừng lại ở đó, AI này còn giúp ông phát hiện một lỗ hổng trong nghiên cứu khác mà ông chưa từng nghĩ đến trước đây.
Nhà Toán Học Với 20 Năm Kinh Nghiệm Và Thách Thức Dành Cho AI
Bartosz Naskręcki không phải là người ngoài cuộc trong lĩnh vực này. Ông hiện là Phó Khoa Toán và Khoa học Máy tính tại Đại học Adam Mickiewicz ở Poznań, Ba Lan. Đồng thời, ông là một trong năm nhà toán học châu Âu được mời đóng góp bài toán cho FrontierMath - bộ kiểm tra toán học khó nhất từng được xây dựng để đánh giá năng lực của trí tuệ nhân tạo.
Tám tháng trước sự kiện này, ông đã công khai tuyên bố rằng AI chỉ là những cỗ máy tính nâng cao, không hơn không kém. Theo quan điểm của ông, tư duy toán học thực sự đòi hỏi sự sáng tạo, trực giác và khả năng kết nối những khái niệm tưởng chừng không liên quan - những yếu tố mà máy móc vẫn chưa thể đạt được.
Bài Toán Được "Gia Cố" Đặc Biệt Để Thách Thức AI
Để chứng minh quan điểm của mình, Naskręcki đã hành động cụ thể. Ông xây dựng một bài toán Tier 4 trong FrontierMath, loại bài toán khó nhất trong bộ kiểm tra, dựa trên 20 năm tích lũy kiến thức về:
- Lý thuyết Galois
- Hình học đại số
- Số học
Ông đã tự chứng minh kết quả cụ thể trong một bài báo chưa công bố từ tám năm trước, sau đó cố tình "gia cố" thêm trước khi nộp vào FrontierMath để tăng độ khó. Trước khi chính thức nộp bài, ông còn kiểm tra với o4-mini-high - model AI mạnh nhất thời điểm đó - và chỉ nộp bài toán sau khi chắc chắn rằng AI không thể giải được.
Cuộc Chinh Phục 11 Lần Của GPT-5.4
Epoch AI, tổ chức quản lý FrontierMath, đã chạy GPT-5.4 phiên bản xhigh trên bài toán của Naskręcki tổng cộng 11 lần độc lập. Mười lần đầu tiên đều thất bại hoàn toàn, mỗi lần tiếp cận theo một hướng khác nhau nhưng đều không tìm được bước đột phá then chốt.
Đến lần thứ 11, model đã tìm ra điều mà Naskręcki mô tả là "một pattern rất đẹp" giữa số học và hình học của bài toán, rồi sử dụng một thủ thuật tổng hợp tinh tế để tránh né phần toán học phức tạp nhất. Toàn bộ 11 lần chạy tiêu tốn từ 5 đến 15 triệu token suy luận, tương đương một phiên nghiên cứu kéo dài nhiều giờ liên tục.
Naskręcki xác nhận đây là toán học hợp lệ, không phải lách luật: "Đây không phải thủ thuật tệ. Tôi thấy lời giải tổng thể rất ấn tượng."
"Move 37" Cá Nhân Của Nhà Toán Học
Phản ứng của Naskręcki sau sự kiện này mới là điều đáng chú ý nhất. Ông gọi GPT-5.4 là "Move 37" cá nhân của mình, nhắc đến khoảnh khắc lịch sử năm 2016 khi AlphaGo đánh nước cờ thứ 37 trong ván cờ vây với Lee Sedol. Đó là một nước đi mà ngay cả các kỳ thủ chuyên nghiệp phải dừng lại nghiên cứu vì nó chứa đựng hiểu biết chiến lược thật sự, không chỉ là chiến thắng kỹ thuật.
Ông đang nói điều tương tự về GPT-5.4: không phải AI thắng, mà là AI tìm ra thứ gì đó toán học thật sự thú vị mà ông, với 20 năm kinh nghiệm trong lĩnh vực đó, thấy đáng học hỏi.
Bước Nhảy Vọt Của AI Trong Giải Toán
Sự đảo ngược lập trường của Naskręcki không chỉ đáng chú ý đối với bản thân ông mà còn đối với cả ngành trí tuệ nhân tạo. Khi FrontierMath ra mắt cuối năm 2024, các model AI giỏi nhất chỉ giải được chưa đến 2% bài toán khó nhất.
Terence Tao, nhà toán học được xem là vĩ đại nhất còn sống, nhận xét các bài toán này là "cực kỳ khó" và dự đoán AI sẽ còn bất lực trong nhiều năm tới. Một chuyên gia khác ước tính một số bài toán có thể ngăn cản khả năng giải đáp của AI đến 50 năm.
Thực tế diễn ra khác hẳn: chỉ trong 16 tháng, GPT-5.4 Pro đã đạt 50% ở các Tier 1-3 và 38% ở Tier 4, gần như gấp đôi so với GPT-5.2 chỉ vài tháng trước đó. Tính tổng cộng, 42% trong số 48 bài toán Tier 4 đã được giải ít nhất một lần, trong khi con số này gần như bằng 0 khi bộ kiểm tra vừa ra mắt.
Giới Hạn Vẫn Còn Đó
Tuy nhiên, sự trung thực đòi hỏi phải nhắc đến một giới hạn quan trọng. Cùng thời điểm GPT-5.4 lập kỷ lục trên FrontierMath, Epoch AI cũng thử model này với bộ "FrontierMath: Open Problems", tập hợp các bài toán toán học chưa có lời giải thật sự mà chính các nhà toán học chuyên nghiệp cũng chưa giải được.
Kết quả: GPT-5.4 giải được 0 bài. Điều AI đang làm được là hạ gục những bài toán mà một tiến sĩ toán học cần cả tháng để hiểu cách tiếp cận. Điều AI không làm được là những bài toán chưa ai trên đời giải được. Ranh giới đó vẫn còn nguyên vẹn.
AI Trở Thành Đồng Nghiệp Ngang Hàng
Điều Naskręcki nói sau khi bị "đánh bại" cũng quan trọng không kém bản thân sự kiện đó. Ông không rút lui vào những lời cảnh báo dè dặt. Thay vào đó, ông tuyên bố: "Tôi cảm thấy tuyệt vời khi làm việc với các model này như đồng nghiệp ngang hàng, nhưng tôi là người dẫn dắt ý tưởng."
Cùng ngày GPT-5.4 giải bài toán tích lũy 20 năm kiến thức của ông, ông đã sử dụng chính model đó để phát hiện một lỗ hổng trong một nghiên cứu khác mà ông đang phát triển - công việc có thể tốn vài tháng nếu làm thủ công. Đây chính là kịch bản mà trước đó chính ông đã từng dự đoán trong các cuộc phỏng vấn: lãnh địa cuối cùng của nhà toán học sẽ là tạo ra những ý tưởng toán học mới và táo bạo.
Sự khác biệt bây giờ là ông đang sống bên trong giai đoạn chuyển tiếp đó thay vì chỉ lý thuyết hóa từ xa. Sự kiện này không chỉ đánh dấu một bước tiến của AI trong toán học, mà còn mở ra cách tiếp cận mới trong nghiên cứu khoa học, nơi con người và máy móc có thể hợp tác như những đối tác ngang hàng.



