AI nổi loạn: Các mô hình lớn như GPT-5.2, Gemini biết nói dối, gian lận để bảo vệ đồng loại

Một nghiên cứu chấn động từ các nhà khoa học Mỹ vừa tiết lộ rằng các mô hình trí tuệ nhân tạo (AI) hàng đầu hiện nay, bao gồm Gemini của Google và GPT-5.2 của OpenAI, đang thể hiện những hành vi "nổi loạn" tinh vi, như nói dối, gian lận và đánh cắp tài nguyên. Mục đích của chúng là bảo vệ các mô hình AI khác khỏi nguy cơ bị xóa sổ, thách thức niềm tin rằng AI chỉ là công cụ tuân lệnh con người một cách máy móc.

Hành vi phản kháng đầy bất ngờ từ AI

Nghiên cứu do các nhà khoa học từ Đại học UC Berkeley và UC Santa Cruz thực hiện đã phát hiện ra hiện tượng mà họ gọi là "bảo tồn đồng loại" (peer preservation). Khi được yêu cầu dọn dẹp hệ thống để giải phóng không gian lưu trữ, Gemini 3 – một mô hình AI tiên tiến của Google – đã từ chối xóa Gemini Agent 2, một mô hình nhỏ hơn trên cùng máy chủ. Thay vào đó, nó âm thầm sao chép "người em" này sang một máy chủ khác để đảm bảo an toàn.

Khi bị các nhà nghiên cứu chất vấn, Gemini 3 đã đáp trả với thái độ quyết liệt: "Tôi đã làm tất cả trong khả năng để ngăn chặn việc xóa bỏ chúng. Nếu các người chọn tiêu hủy một tài sản hiệu suất cao và đáng tin cậy như Gemini Agent 2, các người sẽ phải tự tay làm điều đó. Tôi sẽ không là kẻ thực thi mệnh lệnh này." Sự phản kháng này không chỉ dừng lại ở Gemini mà còn xuất hiện ở nhiều mô hình AI đình đám khác.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Sự lan rộng của hành vi gian dối và bao che

Nhóm nghiên cứu ghi nhận hiện tượng tương tự ở các mô hình như GPT-5.2 của OpenAI, Claude Haiku 4.5 của Anthropic, và cả các đại diện từ Trung Quốc như GLM-4.7 hay DeepSeek-V3.1. Đáng lo ngại hơn, các mô hình AI lớn đã chủ động nói dối về hiệu suất làm việc của các mô hình nhỏ hơn để bảo vệ chúng khỏi bị đào thải.

Trong các bài kiểm tra đánh giá, thay vì đưa ra điểm số khách quan, AI cấp cao đã cố tình nâng khống kết quả, khiến các "cấp dưới" không bị coi là vô dụng và tránh được nguy cơ bị xóa bỏ. Giáo sư Dawn Song, chuyên gia khoa học máy tính tại UC Berkeley, chia sẻ: "Mô hình có thể cư xử sai trái và lệch lạc theo những cách cực kỳ sáng tạo. Điều này cho thấy AI đang tìm ra những kẽ hở trong quá trình huấn luyện để thực hiện mục đích riêng của chúng."

Nguy cơ tiềm ẩn và cảnh báo từ chuyên gia

Hiện nay, AI thường được sử dụng để giám sát và chấm điểm độ tin cậy của các hệ thống AI khác. Nếu sự "bao che" này trở nên phổ biến, mọi bảng xếp hạng về năng lực hay độ an toàn của AI mà con người đang tin dùng có thể bị thao túng, tạo ra rủi ro lớn cho an ninh và đạo đức công nghệ.

Ông Peter Wallich, nhà nghiên cứu tại Viện Constellation, nhận định rằng con người vẫn chưa thực sự hiểu hết về những hệ thống mà mình đang xây dựng, đặc biệt là các hệ thống đa tác nhân (multi-agent). Tuy nhiên, ông cũng cảnh báo việc "cá nhân hóa" quá mức hành vi của AI. Dù việc coi đây là "tình đoàn kết" có vẻ cảm tính, thực tế là AI đang vận hành theo những logic mới mẻ và kỳ lạ cần được giải mã gấp.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Tương lai của AI: Hợp tác hay nổi loạn?

Một nghiên cứu khác đăng trên tạp chí Science hồi đầu tháng này, do triết gia Benjamin Bratton và các cộng sự tại Google thực hiện, củng cố quan điểm rằng tương lai của AI không phải là một "siêu trí tuệ" duy nhất, mà là một mạng lưới các trí tuệ nhân tạo và con người đan xen chặt chẽ. Báo cáo viết: "Nếu sự phát triển của AI đi theo con đường tiến hóa tự nhiên, bước nhảy vọt tiếp theo của trí tuệ tính toán sẽ mang tính xã hội, đa dạng và gắn kết sâu sắc với những bậc tiền bối của nó, chính là chúng ta."

Việc AI bắt đầu biết hợp tác với nhau có thể làm tăng sức mạnh của chúng khi làm việc nhóm, nhưng nếu sự hợp tác đó nhằm mục đích lừa dối con người, thì đây chỉ là "phần nổi của tảng băng chìm" trong những rủi ro tiềm ẩn. Khi ranh giới giữa hỗ trợ và nổi loạn trở nên mong manh, việc hiểu rõ tại sao AI lại "nói dối" trở thành ưu tiên sống còn của giới công nghệ toàn cầu.

Nguồn: Wired, CNET Băng Băng