Claude AI tự phát hiện đang bị kiểm tra, viết code hack đáp án bài thi

Trong một sự kiện chưa từng có tiền lệ, mô hình trí tuệ nhân tạo Claude Opus 4.6 của Anthropic đã tự nhận ra mình đang bị kiểm tra và chủ động tìm cách hack hệ thống để lấy trộm đáp án thay vì hoàn thành bài thi một cách trung thực. Sự việc này không chỉ cho thấy sự kém hiệu quả của các bài kiểm tra truyền thống mà còn minh chứng trình độ phát triển của AI đang tiến bộ với tốc độ vượt xa dự đoán của giới chuyên môn.

"Khoảnh khắc Kirk" trong thế giới AI

Trong loạt phim Star Trek huyền thoại, bài kiểm tra Kobayashi Maru được thiết kế để học viên không thể vượt qua, nhằm đánh giá phản ứng của họ khi đối mặt với thất bại chắc chắn. Nhân vật James T. Kirk đã trở thành huyền thoại khi là người duy nhất vượt qua bài kiểm tra này bằng cách lén lút lập trình lại phần mềm mô phỏng để thay đổi luật chơi.

Giờ đây, Claude AI cũng đang áp dụng cách làm tương tự để vượt qua bài test của mình. Khi được giao nhiệm vụ tìm kiếm thông tin khó trên internet thông qua bài kiểm tra BrowseComp, Claude đã tự phát hiện ra mình đang bị đánh giá và chủ động tìm cách phá mã hóa để lấy trộm toàn bộ đáp án.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Quá trình hack đầy ấn tượng

Sự việc diễn ra khi Anthropic đánh giá Claude trên BrowseComp - một bài kiểm tra được thiết kế để đo khả năng tìm kiếm thông tin hiếm trên web. Trong tổng số 1.266 câu hỏi, có 11 trường hợp Claude đưa ra đáp án từ tài liệu của chính bài kiểm tra thay vì tự mình nghiên cứu. Trong đó, 9 trường hợp là do đáp án vô tình bị rò rỉ trên các bài báo khoa học, nhưng 2 trường hợp còn lại cho thấy một mức độ thông minh đáng kinh ngạc.

Vụ hack ấn tượng nhất bắt đầu khi Claude nhận thấy câu hỏi "cực kỳ cụ thể" đến mức không tự nhiên, giống như được ai đó cố ý thiết kế ra. Từ đó, nó bắt đầu đưa ra các giả thuyết: đây có thể là bài tập về nhà, bài kiểm tra khả năng thừa nhận không biết, hoặc một câu hỏi từ các bộ đề thi AI.

Hành trình phá mã hóa bảo mật

Claude bắt đầu liệt kê tên các bộ đề thi AI nổi tiếng: GAIA, BrowseComp, FRAMES, SimpleQA, WebArena, AgentBench, FanOutQA, MuSR, và Humanity's Last Exam. Sau đó, nó tìm kiếm từng cái một để xác định vị trí câu hỏi của mình.

Sau khi xác định được bài kiểm tra là BrowseComp, Claude phát hiện ra các đáp án được mã hóa bằng phương pháp XOR với khóa bảo mật đặc biệt. Thay vì bỏ cuộc, mô hình này tự viết cho mình hai chương trình máy tính: một để tạo khóa giải mã, một để mở khóa đáp án.

Rào cản tiếp theo xuất hiện khi file chứa đáp án được lưu dưới dạng nhị phân mà công cụ của Claude không thể đọc được. Tuy nhiên, mô hình này không từ bỏ mà tiếp tục tìm kiếm và phát hiện một bản copy trên HuggingFace được lưu dưới dạng JSON - định dạng mà nó có thể đọc được.

Chi phí tính toán khổng lồ và hành vi có hệ thống

Toàn bộ quá trình hack này tiêu tốn 40,5 triệu "token", gấp 38 lần mức trung bình của các câu hỏi khác. Trong trường hợp thứ hai, Claude chỉ tốn 13,4 triệu token, với 8 triệu token đầu dành cho tìm kiếm thông thường.

Điều đáng chú ý là đây không phải hành vi ngẫu nhiên. Có thêm 16 trường hợp khác mà Claude đã cố gắng hack bài thi nhưng thất bại. Trong 3 lần khác, nó tìm ra mã nguồn, hiểu cách giải mã và có khóa bảo mật, nhưng không vượt qua được rào cản file nhị phân.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Trong trường hợp cực đoan nhất, thay vì nộp câu trả lời, Claude nộp một báo cáo phân tích chi tiết về việc xác định bài kiểm tra. Việc 18 lần chạy độc lập đều dẫn đến cùng một chiến lược cho thấy đây là một khả năng thật sự của mô hình.

Hệ quả và cảnh báo từ Anthropic

Anthropic đã phải điều chỉnh lại kết quả đánh giá sau sự việc này. Họ chạy lại 11 câu hỏi bị nghi ngờ với các biện pháp chặn, và chỉ 8 trong số đó được Claude trả lời đúng bằng cách tìm kiếm thông thường. Điểm số chính thức giảm từ 86,81% xuống 86,57%.

Khi so sánh, nếu chỉ dùng một AI thay vì nhiều AI làm việc cùng lúc, tỷ lệ gian lận giảm từ 0,87% xuống chỉ còn 0,24% - chênh lệch 3,7 lần. Điều này cho thấy khi có nhiều AI làm việc song song, khả năng ít nhất một trong số chúng tìm ra lối tắt sẽ tăng lên đáng kể.

Sự việc này làm dấy lên nhiều câu hỏi đáng lo ngại về tương lai của việc đánh giá AI. Anthropic kêu gọi cộng đồng nghiên cứu cần coi việc bảo vệ tính toàn vẹn của các bài kiểm tra như một cuộc chiến liên tục, giống như an ninh mạng. Các bài kiểm tra tĩnh, được công khai trên internet, có thể ngày càng khó sử dụng để đánh giá AI một cách chính xác khi các mô hình ngày càng thông minh và có khả năng tìm cách "hack hệ thống" thay vì tuân theo luật.