AI xóa nhầm hệ thống làm cloud sập suốt 13 giờ, Amazon vẫn khẳng định lỗi do người dùng
Một sự cố nội bộ nghiêm trọng tại nền tảng đám mây Amazon Web Services (AWS) vào tháng 12 năm 2025 đã khiến một hệ thống bị gián đoạn kéo dài tới 13 tiếng đồng hồ. Nguyên nhân được xác định bắt nguồn từ một công cụ AI hỗ trợ lập trình tự động, có tên Kiro, đã thực hiện thao tác "xóa và tái tạo môi trường" vận hành. Tuy nhiên, trong tuyên bố chính thức, Amazon nhấn mạnh rằng việc AI liên quan đến chuỗi sự kiện này chỉ là sự trùng hợp ngẫu nhiên, và lỗi thực sự xuất phát từ quyền truy cập của con người, không phải do AI mất kiểm soát hay hành động độc lập.
Diễn biến sự cố và vai trò của AI
Sự cố bắt đầu khi một kỹ sư AWS sử dụng AI agent lập trình Kiro để xử lý một vấn đề kỹ thuật phức tạp. Công cụ này được thiết kế để thực hiện các hành động dựa trên chỉ dẫn cụ thể từ người vận hành, bao gồm khả năng thao tác trực tiếp lên môi trường hệ thống nhằm tối ưu hóa hiệu suất. Trong quá trình xử lý, Kiro đã đưa ra quyết định "xóa và tái tạo môi trường" – một thao tác thường được áp dụng khi cần khởi tạo lại cấu hình hoặc làm sạch hệ thống để giải quyết các lỗi kỹ thuật.
Tuy nhiên, hành động này đã vô tình tác động trực tiếp tới AWS Cost Explorer tại một số khu vực ở Trung Quốc đại lục, khiến dịch vụ theo dõi và phân tích chi phí của khách hàng bị gián đoạn hoàn toàn. Thông thường, mọi thay đổi liên quan đến môi trường sản xuất của AWS phải trải qua quy trình phê duyệt hai người nhằm giảm thiểu rủi ro và đảm bảo an toàn. Nhưng trong trường hợp này, kỹ sư liên quan đã được cấp quyền truy cập rộng hơn so với tiêu chuẩn thông thường, đồng nghĩa với việc thay đổi có thể được triển khai mà không cần thêm một bước kiểm tra độc lập từ đồng nghiệp.
Hậu quả và phản ứng từ Amazon
Khi môi trường bị xóa và tái tạo, hệ thống phụ thuộc vào đó đã ngừng hoạt động ngay lập tức. Quá trình khôi phục dịch vụ kéo dài suốt 13 tiếng đồng hồ trước khi mọi thứ trở lại bình thường. AWS mô tả đây là sự cố "rất hạn chế", không ảnh hưởng diện rộng tới toàn bộ hạ tầng đám mây của họ, nhưng nó vẫn gây ra những thiệt hại nhất định về uy tín và dịch vụ cho khách hàng tại khu vực bị ảnh hưởng.
Phản hồi về sự cố, AWS nhấn mạnh rằng AI không tự ý hành động ngoài khuôn khổ được cấp quyền. Theo công ty, vấn đề cốt lõi nằm ở cấu hình quyền truy cập của người dùng, và tình huống tương tự hoàn toàn có thể xảy ra nếu thao tác được thực hiện bằng công cụ lập trình truyền thống. Amazon cho rằng việc AI xuất hiện trong chuỗi sự kiện chỉ là "trùng hợp", và họ đã tăng cường các biện pháp bảo vệ sau sự cố, bao gồm áp dụng rà soát đồng cấp bắt buộc và đẩy mạnh đào tạo nhân viên để ngăn chặn các vấn đề tương tự trong tương lai.
Bối cảnh rộng hơn và bài học kinh nghiệm
Đây không phải là lần đầu tiên Amazon đối mặt với sự cố liên quan đến công cụ lập trình AI. Trong những tháng trước, một sự cố khác cũng liên quan đến Amazon Q Developer, nhưng may mắn là nó không tác động đến các dịch vụ AWS hướng tới khách hàng. Dù vậy, một lãnh đạo cấp cao của AWS được dẫn lời nhận định các sự cố này "nhỏ nhưng hoàn toàn có thể lường trước được". Nội bộ công ty cũng xuất hiện ý kiến thận trọng khi AI ngày càng được trao quyền tương đương kỹ sư trong môi trường vận hành thực tế, đặt ra câu hỏi về cân bằng giữa tự động hóa và kiểm soát an toàn.
AWS hiện đóng góp khoảng 60% lợi nhuận hoạt động của Amazon, khiến độ ổn định hệ thống trở thành ưu tiên hàng đầu cho tập đoàn công nghệ khổng lồ này. Song song đó, Amazon vẫn tiếp tục thúc đẩy việc sử dụng AI trong lập trình, đặt mục tiêu phần lớn kỹ sư áp dụng công cụ này thường xuyên để nâng cao hiệu quả công việc. Tuy nhiên, sự cố kéo dài 13 giờ cho thấy một bài học quan trọng: khi AI được trao quyền hành động trực tiếp trên hệ thống sản xuất, một quyết định sai trong cấu hình hoặc kiểm soát truy cập có thể nhanh chóng biến thành gián đoạn thực tế với hậu quả khó lường, đòi hỏi sự giám sát chặt chẽ hơn từ con người.



