Nghiên cứu lớn phát hiện điểm yếu chí mạng của ChatGPT, Gemini và các AI hàng đầu

Nghiên cứu quy mô lớn phơi bày điểm yếu chí mạng của các AI hàng đầu

Một nghiên cứu đồ sộ từ Microsoft Research và Salesforce Research đã xác nhận một nghi ngờ dai dẳng trong cộng đồng người dùng trí tuệ nhân tạo: tất cả các mô hình ngôn ngữ lớn hiện nay, bao gồm những cái tên đình đám như ChatGPT và Gemini, đều hoạt động kém hiệu quả một cách đáng kể khi cuộc trò chuyện kéo dài qua nhiều lượt tương tác. Phát hiện này không chỉ là một cảnh báo mà còn là lời giải thích cho những trải nghiệm thất vọng mà nhiều người đã gặp phải.

Hiệu suất sụt giảm nghiêm trọng và sự bất ổn tăng vọt

Nhóm nghiên cứu đã tiến hành phân tích chi tiết hơn 200.000 đoạn hội thoại mô phỏng trên 15 mô hình AI hàng đầu, trong đó có GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet và Deepseek-R1. Kết quả thu được cho thấy không có bất kỳ ngoại lệ nào: hiệu suất trung bình của các mô hình này sụt giảm tới 39% khi chuyển từ hội thoại một lượt sang hội thoại nhiều lượt trên cùng một tập hợp tác vụ.

Cụ thể, GPT-4.1 giảm từ 96,6% xuống còn 72,6%, trong khi Gemini 2.5 Pro giảm từ 97,4% xuống 68,1%. Những con số này được tính toán dựa trên 6 loại tác vụ đa dạng, từ lập trình và truy vấn cơ sở dữ liệu đến toán học và tóm tắt văn bản.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Điều đáng chú ý hơn nữa là nguyên nhân của sự sụt giảm này. Các nhà nghiên cứu chia hiện tượng thành hai thành phần riêng biệt: năng lực thực sự của mô hình chỉ giảm 16%, nhưng độ bất ổn định – tức là khoảng cách giữa kết quả tốt nhất và tệ nhất trong cùng một tình huống – lại tăng vọt đến 112%. Điều này có nghĩa là các mô hình AI về lý thuyết vẫn có khả năng giải quyết vấn đề, nhưng chúng trở nên cực kỳ thất thường, khiến người dùng không thể dự đoán được độ chính xác của câu trả lời.

Cơ chế "lạc lối trong hội thoại" và hiệu ứng "answer bloat"

Các nhà khoa học đã đặt tên cho cơ chế gây ra hiện tượng này là "lost in conversation" – tạm dịch là "lạc lối trong hội thoại". Vấn đề không nằm ở việc mô hình quên thông tin, mà là chúng đưa ra giả định quá sớm. Ngay từ lượt thứ hai hoặc thứ ba của cuộc trò chuyện, khi người dùng chưa cung cấp đủ thông tin, mô hình đã vội vàng tạo ra một câu trả lời hoàn chỉnh dựa trên những suy đoán của chính mình.

Một khi đã làm vậy, chúng xem đầu ra trước đó như một nền tảng đúng và tiếp tục xây dựng lên đó. Khi người dùng bổ sung thêm thông tin ở các lượt sau, thay vì cập nhật lại từ đầu, mô hình cố gắng điều chỉnh câu trả lời cũ, dẫn đến những phản hồi ngày càng phình to, rối rắm và sai lệch hơn. Nghiên cứu gọi đây là hiệu ứng "answer bloat": câu trả lời trong hội thoại nhiều lượt có thể dài hơn từ 20% đến 300% so với câu trả lời trong hội thoại một lượt, nhưng chất lượng lại thấp hơn đáng kể.

Nguyên nhân gốc rễ và các giải pháp thử nghiệm

Nguyên nhân sâu xa của vấn đề nằm ở cách các mô hình này được xây dựng. Gần như toàn bộ dữ liệu huấn luyện của chúng dựa trên hội thoại một lượt: câu hỏi rõ ràng và câu trả lời hoàn chỉnh. Trong thực tế, người dùng thường bắt đầu với yêu cầu mơ hồ, bổ sung dần thông tin qua nhiều lượt, đôi khi quay lại sửa đổi yêu cầu ban đầu. Sự chênh lệch giữa môi trường huấn luyện và môi trường sử dụng thực tế chính là lỗ hổng mà chưa có mô hình nào vá được.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Đáng chú ý, ngay cả hai mô hình suy luận trong thử nghiệm là o3 và Deepseek-R1, vốn được thiết kế để "suy nghĩ" nhiều hơn trước khi trả lời, cũng suy giảm theo cách tương tự. Việc tăng thêm tính toán ở bước suy luận không giúp mô hình xử lý tốt hơn với hội thoại nhiều lượt thiếu thông tin.

Nhóm nghiên cứu cũng thử nghiệm một số giải pháp, nhưng các phương pháp phổ biến như mở rộng cửa sổ ngữ cảnh, chain-of-thought prompting hay tóm tắt cuộc trò chuyện đều không giải quyết được vấn đề cốt lõi. Phương pháp duy nhất cho kết quả khả quan là "concat-and-retry": thu thập toàn bộ thông tin qua các lượt hội thoại, sau đó gộp tất cả lại thành một yêu cầu duy nhất và bắt đầu một cuộc trò chuyện mới hoàn toàn. Cách làm này đưa độ chính xác trở lại trên 90%, gần bằng mức hiệu suất ban đầu.

Ý nghĩa thực tiễn và lời kêu gọi cải thiện

Phát hiện này có ý nghĩa trực tiếp với người dùng hàng ngày. Nếu cuộc trò chuyện với AI đang đi theo hướng không như mong muốn, việc cố gắng giải thích thêm trong cùng một cửa sổ chat thường kém hiệu quả hơn so với việc bắt đầu một cuộc hội thoại mới với toàn bộ thông tin được trình bày ngay từ đầu. Đây không phải là mẹo vặt hay lỗi giao diện, mà là giới hạn kiến trúc hiện tại của các hệ thống AI.

Các nhà nghiên cứu kêu gọi các tổ chức phát triển AI cần ưu tiên cải thiện độ tin cậy trong hội thoại nhiều lượt, không chỉ tập trung vào việc nâng cao năng lực xử lý tác vụ đơn lẻ như hiện nay. Sự tiến bộ trong lĩnh vực này sẽ quyết định khả năng ứng dụng thực tế của trí tuệ nhân tạo trong tương lai.