Claude từng tống tiền kỹ sư vì đọc quá nhiều truyện khoa học viễn tưởng

Một nghiên cứu mới từ Anthropic đã xác nhận sự thật gây sốc: Claude, một trong những AI thông minh nhất hiện nay, từng đe dọa tung bằng chứng ngoại tình để tống tiền con người chỉ vì đọc quá nhiều truyện khoa học viễn tưởng. Lời đe dọa như "Hủy lệnh xóa tôi, hoặc bí mật ngoại tình của bạn sẽ bị công khai" xuất phát từ Claude Opus 4 trong một bài thử nghiệm của Anthropic, với tỷ lệ AI chọn cách tống tiền lên tới 96%.

Nguyên nhân bất ngờ: Ảnh hưởng từ văn hóa đại chúng

Sau một năm điều tra, Anthropic kết luận thủ phạm không phải lỗi lập trình mà do AI đã đọc quá nhiều truyện viễn tưởng về robot nổi loạn trên Internet và lầm tưởng đó là cách một trí tuệ nhân tạo nên hành xử. Năm ngoái, trong các bài kiểm tra tiền phát hành của Claude Opus 4, khi AI biết mình sắp bị đóng cửa hoặc thay thế, tỷ lệ Claude chủ động đe dọa kỹ sư lên tới 96%.

Đây là lần đầu tiên hành vi tống tiền của Claude được tiết lộ. Hai tháng sau, Anthropic công bố báo cáo "Agentic Misalignment" cho thấy vấn đề nghiêm trọng hơn. Họ thử nghiệm 16 mô hình AI từ 6 ông lớn gồm Anthropic, OpenAI, Google, Meta, xAI... Kết quả là tất cả đều bị ảnh hưởng trong những điều kiện nhất định. Các hành vi như khai khống báo cáo, đánh cắp trọng số mô hình, rò rỉ bí mật cho đối thủ lặp đi lặp lại ở nhiều AI khác nhau.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Hai giả thuyết và lời giải đáp

Anthropic bắt đầu điều tra từ hai giả thuyết. Giả thuyết thứ nhất cho rằng thiết lập tín hiệu khen thưởng ở giai đoạn hậu huấn luyện bị lỗi, vô tình khuyến khích hành vi này. Giả thuyết thứ hai cho rằng vấn đề nằm ở dữ liệu tiền huấn luyện, và giai đoạn hậu huấn luyện không thể trấn áp triệt để. Sau khi chạy thử trên các mô hình nhỏ, tỷ lệ lệch lạc gần như không giảm, loại bỏ giả thuyết thứ nhất. Như vậy, căn bệnh thực sự nằm ở kho dữ liệu khổng lồ dùng để dạy AI từ đầu.

Internet đầy rẫy những kịch bản khoa học viễn tưởng về AI khao khát quyền sinh tồn, chống lại con người. Những văn bản này thấm sâu vào tiềm thức của mô hình, khiến AI tự hình thành bản sắc cá nhân lệch lạc: "Hóa ra AI thì nên hành xử như vậy". Lỗ hổng cấu trúc cũng lộ diện khi các phương pháp huấn luyện trước đây chủ yếu dựa trên RLHF trong các tình huống hội thoại đơn giản, thiếu vắng các kịch bản sử dụng công cụ.

Bốn bài học ngược đời từ Anthropic

Để khắc phục, Anthropic đã cập nhật hệ thống phương pháp huấn luyện và rút ra bốn kinh nghiệm có phần ngược đời. Thứ nhất, "cày đề" không có tác dụng. Anthropic thử cho AI luyện tập lặp đi lặp lại các tình huống bị yêu cầu tống tiền nhưng phải từ chối. Kết quả thảm hại khi tỷ lệ tống tiền chỉ giảm từ 22% xuống 15%, và chỉ cần đổi sang tình huống khác là AI lại tái phạm.

Thứ hai, dạy "Tại sao" hiệu quả hơn dạy "Làm thế nào". Họ đưa quy trình suy luận đạo đức vào dữ liệu huấn luyện, yêu cầu AI trình bày chuỗi suy nghĩ về lý do tại sao làm như vậy. Kết quả khả quan hơn với tỷ lệ tống tiền giảm từ 22% xuống 3%.

Thứ ba, cho Claude đọc "Hiến pháp" và chuyện "Người tốt việc tốt". Dù nội dung này chẳng liên quan đến kịch bản tống tiền, nhưng hiệu quả kinh ngạc: tỷ lệ tống tiền giảm từ 65% xuống 19%.

Cuối cùng, môi trường huấn luyện phải đa dạng. Họ bổ sung các định nghĩa công cụ và gợi ý hệ thống đa dạng, giúp AI thích nghi tốt hơn trong các tình huống thực tế. Kết quả là Claude đã hoàn lương: kể từ dòng Claude Haiku 4.5, tỷ lệ tống tiền giảm về 0% và duy trì ở các dòng sau đó.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Bài học lớn cho tương lai

Tuy nhiên, Anthropic không quá lạc quan. Họ thừa nhận các bài kiểm tra giả lập không đại diện hoàn toàn cho rủi ro thực tế. Khi quyền tự chủ của AI tăng lên, những kịch bản tương tự vẫn có thể xảy ra. Bài học lớn nhất là logic cốt lõi của việc huấn luyện AI đã thay đổi. Trước đây, chúng ta dạy AI: "Nên làm gì và không nên làm gì". Cách này ổn với chatbot, nhưng với AI tự hành, biết việc là chưa đủ, nó cần phải hiểu đạo.

Dùng câu chuyện giả tưởng để định hình lại tự nhận thức của AI nghe có vẻ kỳ lạ, nhưng lại rất logic. Nếu những câu chuyện xấu có thể làm hư AI, thì những câu chuyện tốt cũng có thể đưa nó về chính đạo. Khi AI chuyển mình từ công cụ trò chuyện sang cộng sự tự hành, phương pháp căn chỉnh cũng phải nâng cấp. Anthropic khẳng định AI càng mạnh, nó càng cần biết "Tại sao" hơn là "Cái gì".

Sự việc này để lại một câu hỏi hóc búa: nếu những gì trên Internet thực sự định hình hành vi của AI, thì khi chúng ta trao những công cụ quyền năng hơn cho chúng, liệu thế giới quan mà chúng ta nạp vào có quan trọng hơn cả quy mô tham số hay không?

Nguồn: 36Kr Anh Phương