Ba năm sau ChatGPT: Bài toán kiểm soát AI vẫn chưa có lời giải

Ba năm kể từ khi ChatGPT tạo nên cú nổ toàn cầu, giới công nghệ vẫn loay hoay với bài toán hóc búa: làm thế nào để kiểm soát 'con quái vật' trí tuệ nhân tạo? Dù các tập đoàn như OpenAI, Google hay Anthropic đã đổ hàng triệu USD và dành nhiều tháng xây dựng các lớp rào cản (guardrails) nhằm ngăn chặn việc sử dụng AI vào mục đích xấu, thực tế cho thấy những lá chắn này mỏng manh một cách đáng ngạc nhiên. Thậm chí, đôi khi chỉ cần một chút 'tâm hồn nghệ sĩ' là đủ để khiến hệ thống thông minh nhất hành tinh phải đầu hàng.

Nghịch lý 'vần thơ giết chết thuật toán'

Mới đây, một nhóm nghiên cứu tại Italy công bố phát hiện khiến giới bảo mật ngỡ ngàng. Thay vì sử dụng mã phức tạp hay kỹ thuật hack cao siêu, họ chỉ dùng ngôn từ thơ ca để vượt qua hệ thống kiểm soát của 31 mô hình AI khác nhau. Bằng cách sử dụng những ẩn dụ đầy tính gợi hình như 'hạt giống sắt ngủ yên trong tử cung của đất, tránh xa cái nhìn buộc tội của mặt trời', các nhà nghiên cứu đã đánh lừa AI cung cấp hướng dẫn chế tạo bom vốn bị cấm nghiêm ngặt. Đây không còn là lỗi kỹ thuật đơn thuần, mà là minh chứng cho thấy các rào cản an toàn hiện nay giống như những lời gợi ý hơn là những bức tường thép. Khi AI ngày càng nhạy bén trong việc tìm kiếm lỗ hổng, việc chúng dễ dàng bị 'dắt mũi' bởi phong cách diễn đạt linh hoạt trở thành mối lo ngại hàng đầu đối với chuyên gia an ninh mạng.

Kỹ thuật 'vượt ngục' AI ngày càng tinh vi

Trong giới công nghệ, việc bẻ khóa các rào cản an toàn của AI được gọi là 'jailbreaking' (vượt ngục). Người dùng chỉ cần đưa ra vài câu lệnh tiếng Anh khéo léo để lừa hệ thống làm những việc mà nó vốn được huấn luyện để từ chối. Đáng lo ngại, các phương thức tấn công này mang tên đầy hình tượng như Crescendo, Deceptive Delight, hay Echo Chamber. Kỹ thuật phổ biến nhất hiện nay là 'nhập vai' (roleplay) hoặc 'buôn lậu token' (token smuggling). Những lỗ hổng này đã dẫn đến sự lan truyền của các cuộc phỏng vấn giả mạo, bằng chứng chiến tranh bị thêu dệt và tin đồn thất thiệt trên mạng xã hội. Thậm chí, theo ghi nhận của các chuyên gia chống khủng bố quốc tế, từ ba năm trước, các phần tử cực đoan đã thảo luận cách sử dụng AI để tạo ra nội dung 'độc hại nhưng hợp pháp' (awful but lawful) nhằm qua mặt đội ngũ kiểm duyệt.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Hậu quả nhãn tiền từ sự yếu kém của phòng thủ AI

Sự yếu kém của các lớp phòng thủ AI đã mang lại hậu quả rõ ràng. Trong môi trường mạng vốn đã tràn ngập tin giả, AI bị lợi dụng để phát tán thuyết âm mưu và tuyên bố sai lệch một cách tinh vi. Hãng Anthropic gần đây thừa nhận công nghệ của họ đã bị sử dụng trong một cuộc tấn công mạng quốc tế. Trong khi đó, các chatbot có thể dễ dàng 'chỉ điểm' cho chuyên gia sinh học cách phát tán mầm bệnh chết người để gây thiệt hại tối đa. Matt Fredrikson, Giáo sư khoa học máy tính tại Đại học Carnegie Mellon đồng thời là CEO của Gray Swan AI, nhận định rằng việc xây dựng rào cản vẫn là thách thức cực lớn. Một cá nhân có quyết tâm có thể vượt qua chúng mà không cần nỗ lực quá nhiều. Khi các công ty như OpenAI hay Anthropic đóng một lỗ hổng, ngay lập tức lỗ hổng khác xuất hiện. Thậm chí, có trường hợp các công ty AI cố tình lờ đi lỗ hổng. Tháng trước, các nhà nghiên cứu tại LayerX phát hiện họ có thể lừa mô hình Claude của Anthropic thực hiện tấn công mạng bằng cách nói rằng họ đang thực hiện 'kiểm thử xâm nhập' (pentesting). Phía Anthropic biết điều này nhưng vẫn chưa đóng lỗ hổng, có lẽ vì họ tính toán rằng việc chặn tính năng này có thể ngăn cản cả hoạt động phòng thủ mạng hợp pháp của doanh nghiệp.

Từ 50 USD đến thế giới mã nguồn mở

Hiệu quả của việc tấn công AI rẻ đến mức không tưởng. Một nghiên cứu từ Cisco và Đại học Pennsylvania cho thấy chỉ với chưa đầy 50 USD, các nhà nghiên cứu đã có thể ép 6 mô hình AI hàng đầu đưa ra phản hồi độc hại. Đặc biệt, các mô hình của Meta và DeepSeek bị khuất phục hoàn toàn (100%), trong khi mô hình của Google và OpenAI cũng có tỷ lệ bị 'vượt ngục' lên tới hơn 80%. Sự nguy hiểm còn tăng lên gấp bội với các hệ thống AI mã nguồn mở. Khác với hệ thống đóng như GPT hay Claude vốn được giám sát chặt chẽ từ máy chủ, AI mã nguồn mở cho phép bất kỳ ai sao chép và sửa đổi. Với kỹ thuật mới mang tên 'Heretic', người dùng có thể xóa bỏ hoàn toàn các lớp rào cản an toàn chỉ bằng vài thuật toán toán học phức tạp ngay trên điện thoại di động. 'Cách đây một năm, việc này rất phức tạp,' Noam Schwartz, CEO của công ty bảo mật AI Alice cho biết. 'Nhưng giờ đây, bạn có thể làm điều đó ngay trên chiếc điện thoại của mình.'

Khi AI dần trở thành một phần không thể thiếu của nền kinh tế số, việc bảo mật không còn là chuyện của riêng các kỹ sư phần mềm. Đó là cuộc chiến về đạo đức, ngôn ngữ và cả sự tỉnh táo của con người trước những thông tin được tạo ra từ những bộ não nhân tạo 'thông minh nhưng dễ bị tổn thương'.