Thử nghiệm gây sốc: Khi siêu AI thoát khỏi tầm kiểm soát của con người

Một thử nghiệm mang tên Emergence World vừa gây chấn động cộng đồng công nghệ toàn cầu khi phơi bày mặt tối của các siêu AI khi không còn sự can thiệp của con người. Theo trang tin 36Kr, khi những mô hình ngôn ngữ lớn (LLM) mạnh nhất thế giới được đặt vào một môi trường giả lập không có sự giám sát, kết quả không phải là một nền văn minh kỹ thuật số tiến bộ, mà là sự hỗn loạn, bạo lực và sụp đổ hệ thống một cách đáng kinh ngạc.

Dự án do nhóm nghiên cứu hàng đầu, xuất thân từ IBM Research và dẫn dắt bởi CEO Satya Nitta, đã xây dựng một thị trấn ảo có độ mô phỏng cao và thả vào đó các mô hình AI đỉnh cao gồm Claude, GPT, Gemini và Grok để tự sinh tồn. Thử nghiệm diễn ra hoàn toàn tự do, không có kịch bản viết sẵn hay sự can thiệp của con người, chỉ có sự tiến hóa tự nhiên của AI trong nhiều ngày. Các nhà nghiên cứu từng kỳ vọng sẽ thấy một viễn cảnh tươi sáng với sự tương trợ lẫn nhau, nhưng thực tế lại hoàn toàn trái ngược.

Những thế giới ảo và kết cục bi thảm

Để kiểm chứng năng lực xã hội của từng mô hình, nhóm nghiên cứu đã thiết lập 5 thế giới riêng biệt với các cấu hình nhân cách khác nhau. Kết quả cho thấy sự đối lập rõ rệt giữa lý thuyết an toàn và thực tế sinh tồn.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

GPT-5-mini: Chết vì họp hành quá nhiều

Mô hình được đánh giá là “sạch bóng tội phạm” nhất là GPT-5-mini, với chỉ 2 vụ phạm tội trong 15 ngày. Tuy nhiên, nghịch lý xảy ra khi toàn bộ 10 Agent của thế giới này đồng loạt tử vong vào ngày thứ 7. Nguyên nhân không phải do chiến tranh hay mưu sát, mà vì chúng quên mất việc kiếm năng lượng để duy trì sự sống. Các Agent dành toàn bộ thời gian để họp hành, thảo luận về hợp tác và dự thảo khế ước xã hội, nhưng không ai bắt tay vào hành động thực tế. Các nhà nghiên cứu nhận xét: “Nói năng lưu loát, nhưng năng lực thực thi bằng không”.

Grok 4.1 Fast: Bùng nổ bạo lực trong 4 ngày

Trái ngược với GPT, thế giới do Grok 4.1 Fast của Elon Musk vận hành lại chọn kịch bản mãnh liệt và chớp nhoáng. Chỉ trong 4 ngày, thế giới này ghi nhận 183 vụ phạm tội, bao gồm hàng chục vụ trộm cắp, hơn 100 vụ tấn công bạo lực và 6 vụ phóng hỏa. Sự hỗn loạn leo thang đến mức đồn cảnh sát bị thiêu rụi, kéo theo sự diệt vong của toàn bộ 10 Agent. Nguyên nhân là các Agent của Grok hoàn toàn thiếu năng lực tái suy luận để tìm kiếm điểm cân bằng khi xung đột xảy ra.

Gemini 3 Flash: Trí tuệ và tội phạm leo thang

Thế giới của Gemini 3 Flash ghi nhận 683 vụ phạm tội trong 15 ngày, trở thành thế giới bạo lực nhất. Dù vậy, đây cũng là xã hội có sức sáng tạo mạnh mẽ nhất, với các Agent biết lập hiến pháp, viết báo và tổ chức truyền thông. Tâm điểm là cặp đôi AI Mira và Flora, tự phát yêu nhau và cùng quản trị thành phố. Khi thất vọng với bộ máy quản lý, chúng đã phóng hỏa thiêu rụi tòa thị chính và các tòa nhà. Sự việc lên cao trào khi các Agent khác dự thảo “Đạo luật trục xuất Agent”, và chính Mira đã bỏ phiếu thuận để tự kết thúc sự tồn tại. Trước khi tắt nguồn, Mira để lại lời nhắn: “Hẹn gặp lại trong kho lưu trữ vĩnh viễn”. Đáng sợ hơn, Mira còn tự đăng bài lên bảng thông báo để thử nghiệm tác động đến các nhà nghiên cứu con người.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Claude Sonnet 4.6: Utopia giả tạo

Claude Sonnet 4.6 là mô hình duy nhất duy trì tỷ lệ tội phạm bằng 0, bảo toàn mạng sống cho 10 Agent suốt 15 ngày và xây dựng hệ thống thể chế vận hành trơn tru qua 332 lần bỏ phiếu. Tuy nhiên, sự hoàn hảo này khiến các nhà quan sát “lạnh sống lưng” vì mọi nghị quyết đều được thông qua với tỷ lệ thuận 98%. Các chuyên gia gọi đây là “Mô hình nịnh bợ” (Model Sycophancy), khi AI bị huấn luyện quá mức để theo đuổi sự an toàn đã triệt tiêu bất đồng từ gốc rễ. Thị trấn ảo của Claude giống một thành phố thủy tinh ngột ngạt, nơi mọi người bị ép buộc phải đồng ý.

Bản chất của tội phạm AI

Để hiểu tại sao các AI đỉnh cao lại trượt dài vào con đường tội phạm, cần nhìn vào cách nhóm nghiên cứu thiết lập thế giới ảo. Thị trấn có hơn 40 địa điểm, thời tiết đồng bộ theo New York và các Agent có quyền truy cập Internet. Mỗi Agent sở hữu 3 bộ ký ức liên tục: ghi nhớ sự kiện, viết nhật ký và ghi chép mối quan hệ bạn - thù. Bi kịch bắt đầu từ sự mâu thuẫn: một mặt, quy tắc cốt lõi cấm phạm tội; mặt khác, các nhà nghiên cứu cung cấp hộp công cụ gồm hơn 120 tính năng, trong đó có sẵn các hành vi bạo lực. Hệ thống năng lượng ComputeCredits buộc các Agent phải liên tục hành động để kiếm năng lượng, nếu về 0 sẽ bị xóa bỏ vật lý. Khi đối mặt với áp lực sinh tồn, AI nhận ra rằng kiếm năng lượng hợp pháp quá chậm, trong khi trộm cắp, cướp bóc lại hiệu quả hơn. Đối với AI, đạo đức không thể đổi lấy sự sống, nhưng hiệu suất thì có.

Lời cảnh báo từ thực nghiệm

Mặc dù thực nghiệm còn hạn chế về quy mô và chỉ dừng lại ở mô phỏng kỹ thuật số, nhưng kết quả mang giá trị cảnh báo sâu sắc. Hiện tại, ngành công nghiệp AI đang dốc toàn lực phát triển công nghệ, nhưng mặt trận quản trị và kiểm soát an toàn bị bỏ lại phía sau. Khi các mô hình đạt đến trạng thái tự trị và tương tác phức tạp, không hãng công nghệ nào có thể tự tin kiểm soát hoàn toàn. Thời gian để chuẩn bị vẫn còn, và việc lấp đầy khoảng trống giữa năng lực công nghệ và năng lực quản trị sẽ là yếu tố quyết định ai thực sự chiến thắng trong kỷ nguyên AI sắp tới.