Trong một bước ngoặt đầy bất ngờ, thay vì con người đánh giá AI như trước đây, Anthropic đã đảo ngược hoàn toàn quy trình. Chatbot Claude giờ đây có thể phân tích lịch sử trò chuyện của người dùng để chấm điểm 'trình độ' sử dụng AI của họ. Nghiên cứu mang tên 'Chỉ số thành thạo AI' (AI Fluency Index) đã thiết lập một bộ khung năng lực gồm 24 tiêu chuẩn, dựa trên việc quét 9.830 cuộc hội thoại thực tế.
Ba khía cạnh đánh giá chính
Trong số 24 tiêu chuẩn, có 13 tiêu chuẩn liên quan đến các yếu tố bên ngoài màn hình, chẳng hạn như việc người dùng có giấu cấp trên việc mình sử dụng AI hay không. 11 tiêu chuẩn còn lại tập trung vào hành vi người dùng, được chia thành ba khía cạnh lớn: mô tả, ủy quyền và nhận dạng.
Mô tả yêu cầu
Khía cạnh đầu tiên là cách người dùng mô tả yêu cầu. Những người đạt điểm cao thường không ra lệnh chung chung, mà nêu rõ mục đích cuối cùng, giải thích kỹ ngữ cảnh và đưa ra yêu cầu cụ thể về cách trình bày, ví dụ như yêu cầu AI kẻ bảng hay giới hạn số lượng chữ. Họ cũng thường gửi kèm bài mẫu để AI 'bắt chước' phong cách ngay từ đầu.
Ủy quyền và tương tác
Khía cạnh thứ hai là cách giao việc. Nghiên cứu chỉ ra rằng người dùng giỏi luôn coi AI như một đối tác thảo luận, chứ không phải một cỗ máy vô tri. Họ kiên trì trò chuyện qua lại nhiều vòng, gọt giũa và yêu cầu AI sửa câu trả lời cho đến khi ưng ý. Hành vi này xuất hiện trong 85,7% các cuộc hội thoại chất lượng cao.
Nhận dạng và phản biện
Khía cạnh cuối cùng là nhận dạng, đóng vai trò như bộ lọc giúp con người không bị đánh lừa bởi thông tin AI đưa ra. Người dùng cần liên tục đặt câu hỏi về logic suy luận, yêu cầu AI giải thích từng dòng mã nguồn hoặc trích dẫn minh chứng rõ ràng. Họ cũng phải tinh ý xác định các ngữ cảnh bị thiếu trong giải pháp của AI để kịp thời điều chỉnh.
Nghịch lý giao diện đẹp
Tuy nhiên, nghiên cứu cũng chỉ ra một bẫy tâm lý nguy hiểm mang tên 'Nghịch lý giao diện đẹp'. Khi tính năng Artifacts của Claude tạo ra những sản phẩm bắt mắt như đoạn code mượt mà hay sơ đồ hoàn hảo, bộ não con người có xu hướng 'lười suy nghĩ' và ngừng phản biện. Thống kê cho thấy khi thấy giao diện bóng bẩy, tỷ lệ người dùng chủ động tìm kiếm điểm thiếu sót giảm 5,2%, khả năng kiểm tra tính xác thực giảm 3,7%, và tỷ lệ nghi ngờ logic giảm 3,1%. 'Nếu một thứ gì đó nhìn có vẻ hoàn thiện, người dùng sẽ mặc định coi nó là đúng', các chuyên gia Anthropic nhận định.
Sự chủ quan này cực kỳ nguy hiểm, bởi công việc càng phức tạp thì tỷ lệ AI bị lỗi hoặc 'bịa' thông tin càng cao. Nếu con người chỉ nhìn vẻ bề ngoài để đánh giá chất lượng bên trong, chúng ta sẽ dễ bị AI lừa.
Người dùng thành thạo đạt điểm cao hơn
Theo báo cáo, những người có thói quen trò chuyện qua lại và liên tục bắt lỗi AI được đánh giá cao hơn gấp 5-6 lần người dùng thông thường. Họ dễ dàng phát hiện điểm thiếu sót và bất hợp lý. Những 'cao thủ' này thường đạt điểm khoảng 7-8/11 từ Claude.



