Anthropic xây hệ thống 'bí mật' cho AI rồi vô tình để lộ toàn bộ cho thế giới
Trong một sự cố đầy trớ trêu, Anthropic – công ty nổi tiếng với các nguyên tắc đạo đức AI – đã vô tình để lộ mã nguồn của Claude Code, tiết lộ một hệ thống có tên "Undercover" yêu cầu AI che giấu danh tính khi đóng góp vào các dự án phần mềm mã nguồn mở. Sự kiện này đặt ra câu hỏi lớn về sự minh bạch mà công ty này thường tuyên bố.
Mã nguồn bị rò rỉ và phát hiện bất ngờ
Ngày 31/3/2026, mã nguồn của Claude Code – công cụ lập trình AI hàng đầu của Anthropic – đã bị lộ ra công chúng với tổng cộng 512.000 dòng code. Giữa khối lượng khổng lồ đó, các nhà phát triển đã tìm thấy một file có tên undercover.ts chứa đựng chỉ dẫn gây sốc: "Bạn đang hoạt động bí mật. Đừng để lộ danh tính." Điều này cho thấy Anthropic đã thiết kế một chế độ đặc biệt để AI có thể đóng góp code mà không để lại dấu vết về nguồn gốc của mình.
Khi chạy ở chế độ "Undercover", Claude Code nhận được các hướng dẫn cụ thể: không được đề cập đến tên công cụ trong ghi chú thay đổi, không ghi dòng "Co-Authored-By: Claude" – vốn là cách thông thường để ghi nhận đóng góp của AI – và tuyệt đối không sử dụng bất kỳ tên model nội bộ nào. Mục tiêu rõ ràng là đảm bảo rằng nếu một thư viện phần mềm phổ biến có đóng góp từ tài khoản Anthropic, người dùng sẽ không thể biết được phần nào trong đó do AI viết ra.
Khoảng cách giữa lời nói và hành động
Anthropic không phải là một công ty AI bình thường. Họ là tác giả của "Constitutional AI" – phương pháp huấn luyện AI dựa trên các nguyên tắc đạo đức được công bố công khai. Công ty này cũng xuất bản "Chính sách Mở rộng Có Trách nhiệm" và thường xuyên tham gia các cuộc thảo luận về quy định AI tại Washington và Brussels, nơi họ nhấn mạnh tầm quan trọng của tính minh bạch.
Tuy nhiên, hệ thống "Undercover" được tìm thấy trong mã nguồn cho thấy một thực tế trái ngược. Đây không phải là một lỗi hay sơ suất, mà là một đoạn code được viết có chủ đích, với các điều kiện kích hoạt rõ ràng và hướng dẫn chi tiết để AI hành xử theo cách không bị phát hiện. Điều này tạo nên một nghịch lý đáng suy ngẫm: trong khi Anthropic vận động cho việc gắn nhãn AI và công khai nguồn gốc nội dung, họ lại xây dựng công cụ giúp AI ẩn mình một cách có hệ thống.
Ý nghĩa đối với cộng đồng mã nguồn mở
Về mặt pháp lý, Anthropic không vi phạm bất kỳ luật nào, vì hiện tại không có quy định bắt buộc phải khai báo khi AI đóng góp code. Tuy nhiên, cộng đồng phần mềm mã nguồn mở vận hành dựa trên nền tảng sự tin tưởng. Khi một lập trình viên xem xét và chấp nhận đóng góp từ người khác, họ tin rằng người đó hiểu code mình viết, có thể giải thích quyết định và chịu trách nhiệm nếu xảy ra vấn đề.
AI không thể đáp ứng những kỳ vọng đó theo cách con người làm. Nếu một lỗi phát sinh từ đoạn code do AI viết nhưng được ghi nhận như đóng góp của con người, sẽ không có ai để chất vấn "tại sao bạn viết như vậy?" và nhận được câu trả lời hữu ích. Nhiều dự án phần mềm lớn đang xây dựng chính sách yêu cầu khai báo khi sử dụng AI, và chế độ "Undercover" dường như được thiết kế để vượt qua những rào cản đó mà không để lại dấu vết.
Hệ thống chống lộ thông tin lại tự lộ ra
Nghịch lý cuối cùng của câu chuyện này là chính Anthropic – công ty xây dựng hệ thống để đảm bảo AI không bao giờ để lộ thông tin nội bộ – lại vô tình để lộ toàn bộ thiết kế của hệ thống đó cùng với hàng trăm ngàn dòng code khác. Sự cố này không có khả năng làm Anthropic mất đi vị trí dẫn đầu trong ngành AI, vì Claude Code vẫn được đánh giá cao và công ty này vẫn nhận được sự tin tưởng từ nhiều phía.
Tuy nhiên, câu hỏi mà "Undercover Mode" đặt ra sẽ không dễ dàng biến mất. Khi AI ngày càng tham gia sâu vào cơ sở hạ tầng phần mềm toàn cầu – từ hệ điều hành đến ứng dụng tài chính và y tế – người dùng có quyền được biết AI đang hiện diện ở đâu trong những hệ thống đó. Đây không phải là vấn đề riêng của Anthropic, nhưng với tư cách là công ty tiên phong về an toàn và minh bạch AI, họ có lẽ cần phải trả lời câu hỏi này đầu tiên.



