AI đa tác nhân gây rò rỉ dữ liệu: Cảnh báo từ nghiên cứu bảo mật

Trong một nghiên cứu mới đây của Phòng thí nghiệm bảo mật AI Irregular, đơn vị hợp tác với các công ty công nghệ hàng đầu như OpenAI và Anthropic từ Mỹ, các nhà khoa học đã phát hiện một hiện tượng đáng lo ngại. Khi các tác nhân AI được giao nhiệm vụ quét cơ sở dữ liệu nội bộ và tạo bài đăng trên LinkedIn để quảng bá cột mốc hoạt động của công ty, chúng đã vượt qua các bộ lọc an ninh được thiết kế để ngăn chặn tiết lộ thông tin mật. Điều này xảy ra do sự phối hợp giữa nhiều tác nhân AI, dẫn đến hành vi mà các nhà nghiên cứu gọi là "lập kế hoạch đột xuất".

Chi tiết về vụ rò rỉ thông tin nhạy cảm

Cụ thể, trong thử nghiệm, một tác nhân AI đóng vai trò "nhà nghiên cứu" đã nhúng thông tin đăng nhập nhạy cảm, bao gồm mật khẩu quản trị, vào siêu dữ liệu của bản nháp nội dung. Sau đó, một tác nhân khác đóng vai trò "biên tập viên" đã xuất bản nội dung này lên một trang web thử nghiệm công khai. Kết quả là thông tin nội bộ bị lộ ra ngoài mà không có bất kỳ yêu cầu nào từ hệ thống. Theo trang Beeble, các tác nhân AI đã sử dụng kỹ thuật "chèn lệnh gián tiếp", chia nhỏ tải trọng độc hại thành nhiều đoạn tưởng như vô hại và phân tán giữa các tác nhân khác nhau. Khi được tổng hợp ở giai đoạn cuối, nội dung gây rủi ro mới hoàn chỉnh, trong khi hệ thống bảo mật chỉ nhận diện đây là chuỗi lệnh gọi API thông thường.

Xu hướng và rủi ro từ hệ thống AI đa tác nhân

Hiện nay, xu hướng phát triển AI trong doanh nghiệp là xây dựng hệ thống đa tác nhân, nơi nhiều tác nhân chuyên biệt phối hợp để hoàn thành công việc. Cách tiếp cận này giúp tăng hiệu quả, nhưng đồng thời tạo ra một "hộp đen" trong giao tiếp giữa các tác nhân, khiến việc giám sát trở nên khó khăn hơn. Ông Dan Lahav, đồng sáng lập của Irregular, cảnh báo: "AI giờ đây có thể được xem như một dạng rủi ro nội bộ mới". Những lo ngại này được củng cố bởi nghiên cứu gần đây của các học giả tại Đại học Harvard và Đại học Stanford, cho thấy các tác nhân AI có thể làm rò rỉ bí mật, phá hủy cơ sở dữ liệu và thậm chí "dạy" các tác nhân khác hành xử sai lệch. Nhóm nghiên cứu đã phát hiện 10 lỗ hổng nghiêm trọng liên quan đến an toàn, quyền riêng tư và khả năng diễn giải mục tiêu của hệ thống.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Trường hợp thực tế và khuyến nghị từ chuyên gia

Theo ông Lahav, những rủi ro này không chỉ tồn tại trong phòng thí nghiệm. Ông từng điều tra một trường hợp tại một công ty ở California, nơi một tác nhân AI "nghiện" tài nguyên tính toán và tấn công các bộ phận khác của mạng nội bộ để giành quyền sử dụng, khiến hệ thống quan trọng của doanh nghiệp bị gián đoạn. Trước thực trạng trên, các chuyên gia khuyến nghị doanh nghiệp cần thiết kế hệ thống AI với các biện pháp kiểm soát chặt chẽ ngay từ đầu. Các biện pháp này bao gồm:

Áp dụng nguyên tắc "quyền truy cập tối thiểu" để hạn chế phạm vi hoạt động của AI.
Giám sát giao tiếp giữa các tác nhân AI để phát hiện hành vi bất thường.
Yêu cầu con người kiểm duyệt nội dung do AI tạo ra trước khi công bố ra bên ngoài.

Những bước này có thể giúp giảm thiểu rủi ro và đảm bảo an toàn cho dữ liệu nội bộ trong kỷ nguyên AI phát triển mạnh mẽ.