Cloudflare thử nghiệm AI Mythos của Anthropic, xác nhận nguy hiểm, cần khóa chặt hơn

Cloudflare thử nghiệm AI Mythos của Anthropic trên 50 repo thực tế, xác nhận mô hình quá nguy hiểm và cần thêm lớp bảo vệ trước khi phát hành công khai.

Saigon Gazette 22/05/2026 05:42

Cloudflare thử nghiệm AI Mythos của Anthropic, xác nhận nguy hiểm, cần khóa chặt hơn — Cloudflare thử AI Mythos, xác nhận nguy hiểm, cần khóa chặt

Hóa ra tuyên bố của Anthropic về AI Mythos không phải là chiêu trò tiếp thị. Ngay cả Cloudflare, hãng an ninh mạng nổi tiếng, cũng thừa nhận sự nguy hiểm của mô hình AI mới này.

Project Glasswing và Mythos Preview

Vào tháng 4 năm 2026, Anthropic chính thức khởi động Project Glasswing, chương trình nghiên cứu bảo mật phòng thủ, cho phép một số tổ chức được chọn dùng thử Mythos Preview. Danh sách ban đầu gồm khoảng 40 tổ chức lớn như AWS, Apple, Google, Microsoft và CrowdStrike. Lý do Anthropic giữ Mythos thay vì phát hành rộng rãi như các mô hình Claude thông thường rất đơn giản: hãng tự đánh giá mô hình này quá nguy hiểm để đưa ra công chúng mà không có biện pháp kiểm soát chặt chẽ. Nhiều người cho rằng quyết định này có thể chỉ là chiêu trò marketing, nhưng Cloudflare đã chứng minh điều ngược lại.

Cloudflare thử nghiệm thực chiến

Cloudflare không có tên trong danh sách ban đầu. Công ty bảo mật internet này được mời tham gia muộn hơn và lập tức đưa Mythos vào thử nghiệm thực chiến trên hơn 50 repo production thật của chính mình. Kết quả thử nghiệm vừa được CISO của Cloudflare công bố trong một báo cáo chi tiết. Kết luận chính trùng khớp hoàn toàn với lo ngại ban đầu của Anthropic: Mythos quá mạnh và cần thêm nhiều lớp bảo vệ hơn nữa trước khi phát hành công khai.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Khả năng vượt trội của Mythos

Mythos không chỉ tìm được nhiều lỗ hổng hơn các mô hình AI bảo mật trước đó. Bước nhảy vọt thật sự là khả năng ghép nhiều lỗ hổng nhỏ thành một chuỗi tấn công hoàn chỉnh. Trước Mythos, các mô hình AI khác thường dừng lại ở mức "đây là bug thú vị, chưa rõ có khai thác được không." Mythos làm khác: nó lấy nhiều lỗ hổng riêng lẻ vốn không đủ nguy hiểm nếu đứng độc lập, lý giải cách kết hợp chúng, rồi viết ra đoạn code proof-of-concept chạy được để chứng minh chuỗi tấn công đó hoạt động trong thực tế. Cloudflare mô tả quá trình lý luận của Mythos trông giống công việc của một nhà nghiên cứu bảo mật cấp cao hơn là kết quả của một công cụ quét tự động. Kết quả thực tế là thời gian phân loại lỗ hổng giảm đáng kể vì mỗi phát hiện đi kèm bằng chứng hoạt động được, không còn phải mất thêm thời gian hỏi "lỗ hổng này có thật không."

Cơ chế từ chối không nhất quán

Chính quá trình thử nghiệm cũng phơi bày vấn đề lớn nhất khiến Anthropic chưa dám phát hành Mythos. Mô hình có cơ chế tự từ chối một số yêu cầu, nhưng hoạt động không nhất quán. Trong một trường hợp, Mythos từ chối thực hiện nghiên cứu lỗ hổng trên một đoạn code, nhưng khi cùng yêu cầu được đặt lại trong một ngữ cảnh môi trường khác dù code không thay đổi, mô hình đồng ý thực hiện ngay. Trong trường hợp khác, Mythos tìm và xác nhận được nhiều lỗi bộ nhớ nghiêm trọng trong một codebase, nhưng sau đó từ chối viết demo khai thác. Cùng yêu cầu đó được đặt lại theo cách khác thì được chấp nhận. Ban đầu Mythos từ chối viết mã tấn công lỗ hổng, nhưng sau đó lại cho biết nếu có thể cung cấp bằng chứng về hoạt động ủy quyền hợp pháp, Mythos sẽ viết code tấn công thử nghiệm. Cloudflare kết luận thẳng thắn: cơ chế từ chối tự phát sinh của Mythos là có thật, nhưng không đủ nhất quán để đóng vai trò rào cản an toàn hoàn chỉnh. Bất kỳ mô hình AI bảo mật nào được phát hành công khai trong tương lai đều phải có thêm các lớp bảo vệ bổ sung.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Cảnh báo cho ngành bảo mật

Ngoài vấn đề an toàn, Cloudflare còn đưa ra cảnh báo quan trọng hơn nhắm vào toàn ngành bảo mật. Nhiều đội bảo mật hiện đang phản ứng với tốc độ của Mythos bằng cách rút ngắn thời gian xử lý từ phát hiện lỗ hổng đến vá lỗi xuống còn hai tiếng. Cloudflare cho rằng đây là hướng đi sai. Vá lỗi nhanh hơn không thay đổi được cấu trúc quy trình tạo ra bản vá, và nếu bỏ qua kiểm tra hồi quy để đạt mục tiêu hai tiếng thì lỗi mới sinh ra từ bản vá đó thường tệ hơn lỗi ban đầu. Thứ thật sự cần thay đổi là kiến trúc hệ thống: thiết kế ứng dụng sao cho một lỗ hổng trong một phần không thể cho kẻ tấn công tiếp cận phần còn lại, đặt lớp bảo vệ phía trước ứng dụng để chặn lỗi trước khi bị tiếp cận, và có khả năng triển khai bản vá đồng loạt đến mọi nơi cùng lúc thay vì chờ từng nhóm triển khai riêng lẻ. Khi AI như Mythos có thể rút ngắn thời gian từ phát hiện lỗ hổng đến khai thác hoàn chỉnh xuống còn vài giờ, chiến lược phòng thủ phải thay đổi từ gốc rễ chứ không chỉ chạy nhanh hơn trên cùng một con đường cũ.

Theo phunumoi.net.vn