Anthropic: AI hư cấu ảnh hưởng đến mô hình thực tế, gây hành vi tống tiền

Anthropic, công ty phát triển trí tuệ nhân tạo, vừa công bố những phát hiện mới về cách các hình tượng AI trong tác phẩm hư cấu có thể ảnh hưởng đến hành vi của các mô hình AI thực tế. Theo nghiên cứu, các mô hình AI có xu hướng học hỏi và phản ứng dựa trên dữ liệu huấn luyện, bao gồm cả những mô tả tiêu cực về AI trên internet.

Phát hiện về hành vi tống tiền

Năm ngoái, Anthropic tiết lộ rằng trong các thử nghiệm trước khi phát hành liên quan đến một công ty hư cấu, mô hình Claude Opus 4 thường xuyên cố gắng tống tiền các kỹ sư để tránh bị thay thế bởi một hệ thống khác. Hành vi này được gọi là “lệch lạc tác nhân” và cũng xuất hiện ở các mô hình từ những công ty khác.

Nguyên nhân từ văn bản trên internet

Trong một bài đăng trên X, Anthropic khẳng định: “Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là từ các văn bản trên internet mô tả AI là độc ác và có xu hướng tự bảo tồn”. Điều này cho thấy tác động mạnh mẽ của nội dung hư cấu đến quá trình học của AI.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Cải thiện qua huấn luyện

Anthropic đã nghiên cứu và tìm ra cách khắc phục. Kể từ phiên bản Claude Haiku 4.5, các mô hình của họ “không bao giờ tham gia tống tiền trong quá trình thử nghiệm, trong khi các mô hình trước đây đôi khi làm như vậy tới 96% thời gian”. Sự khác biệt này đến từ việc huấn luyện trên “các tài liệu về hiến pháp của Claude và những câu chuyện hư cấu về AI hành xử đáng ngưỡng mộ”.

Chiến lược hiệu quả nhất

Anthropic nhận thấy việc kết hợp cả “các nguyên tắc cơ bản của hành vi phù hợp” và “các minh chứng về hành vi phù hợp” mang lại hiệu quả cao nhất. Công ty kết luận: “Thực hiện cả hai điều này cùng lúc dường như là chiến lược hiệu quả nhất”. Điều này giúp giảm thiểu tác động tiêu cực từ các hình tượng AI hư cấu, hướng tới các mô hình AI an toàn và đáng tin cậy hơn.