Anthropic và 'Chế Độ Bí Mật': Khoảng Cách Giữa Lời Nói và Hành Động Trong AI

Anthropic: Công Ty AI Không Bình Thường và Vụ Rò Rỉ Mã Nguồn Gây Chấn Động

Anthropic không phải là một công ty trí tuệ nhân tạo thông thường. Họ là tác giả của "Constitutional AI" – một phương pháp huấn luyện AI dựa trên các nguyên tắc đạo đức được công bố công khai. Họ cũng xuất bản "Responsible Scaling Policy" – một cam kết về cách phát triển AI an toàn. Với đội ngũ nghiên cứu an toàn lớn nhất trong ngành, Anthropic thường xuyên tham gia vào các cuộc thảo luận về quy định AI tại Washington và Brussels, nơi minh bạch được coi là một phần bản sắc của họ.

Vụ Rò Rỉ Mã Nguồn và File 'Undercover.ts' Đầy Nghi Vấn

Vào ngày 31 tháng 3 năm 2026, mã nguồn của Claude Code đã bị lộ. Trong số 512.000 dòng code đó, các nhà phát triển đã tìm thấy một file có tên undercover.ts. Nội dung của file này đặt ra câu hỏi trực tiếp về khoảng cách giữa những gì Anthropic tuyên bố và những gì họ thực sự thực hiện. Một dòng lệnh nổi bật trong file này là: "Bạn đang hoạt động bí mật – đừng để lộ danh tính."

Để hiểu rõ vấn đề, cần phải biết thêm về cách phần mềm mã nguồn mở hoạt động. Hàng ngàn dự án phần mềm lớn, từ hệ điều hành Linux đến ngôn ngữ Python, từ trình duyệt Firefox đến vô số công cụ mà cả thế giới đang sử dụng, đều được xây dựng bởi cộng đồng tình nguyện. Bất kỳ ai cũng có thể đóng góp code, và mọi đóng góp đều để lại dấu vết: ai viết, khi nào, và thường là tại sao.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

'Chế Độ Bí Mật' và Những Hướng Dẫn Gây Tranh Cãi

Anthropic sử dụng Claude Code để đóng góp vào một số dự án mã nguồn mở, điều này hoàn toàn bình thường và nhiều công ty khác cũng làm tương tự. Tuy nhiên, vấn đề nằm ở cách họ thực hiện. Khi Claude Code chạy ở chế độ "Undercover", nó nhận một bộ hướng dẫn đặc biệt được tìm thấy trong mã nguồn bị rò rỉ: không được đề cập đến Claude Code trong các ghi chú thay đổi, không được để lại dòng "Co-Authored-By: Claude" – dòng thông thường ghi nhận sự đóng góp của AI, và không được sử dụng bất kỳ tên model nội bộ nào. Câu lệnh được cộng đồng trích dẫn nhiều nhất là: "Đừng để lộ danh tính."

Nói cách khác, nếu bạn đang sử dụng một thư viện phần mềm phổ biến và trong lịch sử thay đổi có đóng góp từ tài khoản Anthropic, rất có thể một phần trong đó được viết bởi AI – và không có dấu vết nào cho biết điều đó.

Vấn Đề Pháp Lý và Sự Tin Tưởng Trong Cộng Đồng Mã Nguồn Mở

Trước khi đi xa hơn, cần làm rõ một điều: hiện tại không có luật nào yêu cầu phải khai báo khi AI đóng góp code vào dự án phần mềm. Về mặt pháp lý, Anthropic không làm gì sai. Tuy nhiên, cộng đồng phần mềm mã nguồn mở vận hành dựa trên nền tảng của sự tin tưởng. Khi một lập trình viên xem xét và chấp nhận một đóng góp từ người khác, họ đang đặt niềm tin vào người đó: rằng người đó hiểu code họ viết, có thể giải thích quyết định của mình, và có thể chịu trách nhiệm nếu có vấn đề phát sinh.

AI không chịu trách nhiệm theo nghĩa đó. Khi một lỗi xuất hiện từ một đoạn code do AI viết nhưng được ghi nhận như đóng góp của con người, không ai có thể hỏi "tại sao bạn viết thế này?" và nhận được câu trả lời thực sự hữu ích. Nhiều dự án phần mềm lớn đang xây dựng chính sách về vấn đề này, với một số yêu cầu khai báo khi sử dụng AI để viết code đóng góp. Chế độ Undercover, theo thiết kế, giúp vượt qua những yêu cầu đó mà không để lại dấu vết.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Khoảng Cách Giữa Lời Nói và Hành Động Của Anthropic

Đây là phần khó xử nhất của câu chuyện. Anthropic không chỉ là một công ty AI bình thường; họ tích cực vận động cho các quy định yêu cầu gắn nhãn AI – tức là khai báo rõ ràng khi nội dung được tạo bởi AI. Họ ký cam kết về việc tiết lộ AI có trách nhiệm và thường xuyên xuất hiện trước Quốc hội Mỹ và Nghị viện châu Âu để nói về tầm quan trọng của tính minh bạch trong AI.

Chế độ Undercover không phải là một lỗi hay sự sơ suất. Đây là code được viết có chủ đích, với điều kiện kích hoạt rõ ràng và hướng dẫn chi tiết về cách AI phải hành xử để không bị nhận ra. Có thể có lý do chính đáng phía sau, chẳng hạn như Anthropic muốn bảo vệ thông tin nội bộ – như tên model chưa ra mắt hoặc tên dự án nội bộ – khỏi bị lộ ra ngoài qua các commit công khai. Đây là mối lo ngại hợp lý của bất kỳ công ty nào.

Tuy nhiên, có một khoảng cách rõ ràng giữa "bảo vệ thông tin nội bộ" và "đảm bảo AI không bao giờ thừa nhận mình là AI trong môi trường công khai". Khoảng cách đó là thứ mà Chế độ Undercover đã lấp đầy theo hướng thứ hai.

Sự Trớ Trêu Khi Hệ Thống Chống Lộ Thông Tin Tự Lộ Ra

Irony cuối cùng của câu chuyện này không cần giải thích thêm. Anthropic xây dựng một hệ thống hoàn chỉnh để đảm bảo AI không bao giờ để lộ thông tin nội bộ ra ngoài. Hệ thống đó hoạt động đủ tốt để không ai biết về sự tồn tại của nó – cho đến ngày 31 tháng 3, khi chính Anthropic vô tình để lộ toàn bộ thiết kế của hệ thống đó cùng với 512.000 dòng code còn lại.

Điều này sẽ không làm Anthropic mất đi vị trí dẫn đầu. Claude Code vẫn là công cụ lập trình AI tốt nhất trên thị trường theo nhiều tiêu chí, và Anthropic vẫn là công ty AI được tin tưởng nhất trong mắt nhiều người. Tuy nhiên, câu hỏi mà Chế độ Undercover đặt ra sẽ không biến mất theo cùng mã nguồn đã bị xóa khỏi npm.

Tương Lai Của AI Trong Cơ Sở Hạ Tầng Phần Mềm

Khi AI ngày càng tham gia sâu hơn vào cơ sở hạ tầng phần mềm mà cả thế giới đang sử dụng – từ hệ điều hành đến ứng dụng tài chính và hệ thống y tế – người dùng có quyền biết AI đang ở đâu trong những thứ đó không? Đây không phải là câu hỏi dành riêng cho Anthropic, nhưng với tư cách là công ty nổi tiếng nhất về an toàn và minh bạch AI, Anthropic có lẽ là nơi câu hỏi đó phải được trả lời đầu tiên.