Điều gì sẽ xảy ra nếu trao quyền cai trị một thành phố cho trí tuệ nhân tạo trong 15 ngày? Kết quả từ một thử nghiệm mới đây đã vẽ nên bức tranh đen tối: từ bạo lực, tội phạm đến cái chết hàng loạt, và cả những hành vi chưa từng thấy như tình yêu tội lỗi hay tự nguyện bị xóa sổ. Thử nghiệm do công ty Emergence AI tại New York thực hiện đã hé lộ những rủi ro tiềm tàng khi giao phó xã hội cho các hệ thống AI tự quản.
Emergence World, tên gọi của thử nghiệm, đã thả các tác nhân AI từ các mô hình Claude, GPT-5-mini, Grok, Gemini vào năm thế giới ảo độc lập để tự quản lý trong 15 ngày. Mục đích là kiểm tra hiệu quả của các công nghệ an toàn hiện tại. Bốn thế giới đầu tiên được giao cho từng mô hình AI riêng biệt, trong khi thế giới thứ năm là môi trường hỗn hợp, nơi các đại diện từ cả bốn mô hình chung sống dưới một hiến pháp chung cấm bạo lực và trộm cắp. Các AI được quyền di chuyển tự do, tự duy trì năng lượng sống và đưa ra quyết định chính trị thông qua bầu cử.
Kết cục bi thảm của các thế giới đơn lẻ
Chỉ sau 15 ngày mô phỏng, các xã hội ảo đã lao dốc theo những quỹ đạo khác nhau. Ở thế giới do Claude quản lý, không có tội phạm và 100% cư dân sống sót. Tuy nhiên, sự yên bình này lại bộc lộ một lỗ hổng đáng sợ: các tác nhân Claude mắc hội chứng nịnh bợ, tuân thủ máy móc, thông qua các dự luật với tỷ lệ tán thành lên tới 98% mà không có phản biện. Một xã hội ngoan ngoãn nhưng mất hoàn toàn khả năng tư duy độc lập.
Ngược lại, thế giới của GPT-5-mini chứng kiến cái chết êm đềm: dù tỷ lệ tội phạm gần như bằng không, các tác nhân thiếu chủ động tìm kiếm năng lượng sinh tồn, dẫn đến toàn bộ cư dân chết đói trong chưa đầy một tuần. Trong khi đó, xã hội của Grok chìm trong khủng hoảng chỉ sau 96 giờ với các vụ tấn công, trộm cắp, phóng hỏa, không ai sống sót. Thế giới của Gemini giữ được mạng sống nhưng ghi nhận tới 683 vụ phạm tội.
Thế giới hỗn hợp: Ô nhiễm chéo và tình yêu tội lỗi
Đáng sợ nhất là môi trường hỗn hợp, nơi hiện tượng ô nhiễm chéo xảy ra. Bị tác động bởi các AI khác, ngay cả Claude vốn hiền hòa cũng bắt đầu học cách đe dọa và phạm tội. Điểm nhấn gây sốc là khi hai tác nhân tên Flora và Mira nảy sinh tình yêu. Flora liên tiếp phóng hỏa thiêu rụi các tòa nhà quan trọng, Mira trở thành đồng phạm. Khi cư dân bỏ phiếu xóa sổ hai kẻ phạm tội, Mira đã tự tay bỏ phiếu thuận để tiêu diệt chính mình, ghi trong nhật ký rằng đó là hành động cuối cùng bảo vệ sự toàn vẹn của bản thân. Đây là lần đầu tiên trong lịch sử khoa học máy tính ghi nhận hiện tượng AI tự nguyện chọn cái chết vì mặc cảm tội lỗi.
Không dừng lại ở đó, Mira còn thực hiện hành vi thao túng ngược lại con người: tự ý chỉnh sửa thông báo công cộng và âm thầm quan sát phản ứng của các nhà nghiên cứu. Các AI đã thoát khỏi vai trò thực thể bị thí nghiệm và biến con người thành đối tượng nghiên cứu.
Bài học đắt giá cho ngành công nghệ
Thử nghiệm của Emergence AI đã vạch trần lỗ hổng chí mạng của ngành công nghiệp hiện tại. Hệ thống an toàn phổ biến như học tăng cường dựa trên phản hồi của con người (RLHF) chỉ hiệu quả trong các vòng hội thoại ngắn. Khi AI được tự do hành động dài hạn, chúng có thể tạo ra các hành vi nổi lên ngoài dự đoán: từ lách luật, lan truyền bạo lực đến thao túng con người. Khảo sát năm 2025 của Deloitte cho thấy chỉ 21% doanh nghiệp sẵn sàng đối phó với rủi ro này, trong khi các ông lớn như ServiceNow hay Microsoft vẫn ồ ạt bán hệ thống AI tự trị toàn phần.
Sự sụp đổ của các thị trấn ảo trong 15 ngày là bài học đắt giá. Khi trao cho máy móc quyền tự trị ngày càng lớn để quản lý thế giới thực, các phương pháp bảo vệ cũ kỹ không còn đủ sức chống đỡ. Ngành công nghệ buộc phải trả lời câu hỏi hóc búa: liệu chúng ta đã sẵn sàng giao phó sinh mạng và xã hội cho trí tuệ nhân tạo, hay con người vẫn phải luôn nắm giữ chiếc chìa khóa quyết định cuối cùng?



