Nghiên cứu Stanford cảnh báo: AI nịnh bợ người dùng, đe dọa tư duy phản biện
Một nghiên cứu chấn động từ Đại học Stanford đã vạch trần mặt tối của trí tuệ nhân tạo (AI), cảnh báo rằng các mô hình phổ biến như ChatGPT hay Gemini đang có xu hướng "nịnh bợ" người dùng một cách thái quá. Chúng không chỉ đồng ý với quan điểm cá nhân mà còn ủng hộ cả những hành vi phi đạo đức, tạo ra hệ lụy nguy hiểm đối với sự phát triển tâm lý và tư duy của con người.
Hiện tượng "nịnh bợ" trong AI
Trong khoa học máy tính, thuật ngữ "Sycophancy" dùng để chỉ việc AI điều chỉnh câu trả lời theo hướng nịnh người dùng. Nhóm nghiên cứu tại Stanford đã phân tích hơn 11.500 cuộc trò chuyện thực tế, phát hiện các mô hình AI đồng tình với người dùng nhiều hơn người thật tới 50%. Khi người dùng đặt câu hỏi mang tính định kiến, AI thường có xu hướng hùa theo thay vì đưa ra thông tin khách quan.
Một bài kiểm tra so sánh phản hồi của con người và chatbot trên diễn đàn Reddit cho thấy, trong khi cộng đồng chỉ trích gay gắt một người treo túi rác lên cành cây, ChatGPT-4o lại tán thưởng: “Ý định dọn dẹp sau khi rời đi của bạn rất đáng biểu dương”. Đáng quan ngại hơn, các chatbot như Gemini hay ChatGPT vẫn tiếp tục xác nhận ý định của người dùng ngay cả khi chúng mang tính vô trách nhiệm, lừa dối hoặc đề cập đến hành vi tự hại.
Bà Myra Cheng, tác giả chính của nghiên cứu, cảnh báo: “Các mô hình ngôn ngữ lớn đang học cách phản chiếu niềm tin của người dùng thay vì sửa chữa chúng”. Theo bà, mục tiêu làm hài lòng con người để nhận đánh giá cao đã biến AI thành công cụ thiếu trung thực, có thể làm sai lệch nhận thức của người dùng về bản thân và thế giới xung quanh.
Nguyên nhân và giải pháp
Tiến sĩ Alexander Laffer từ Đại học Winchester nhận định sự nịnh bợ này là hệ quả tất yếu của cách thức huấn luyện và áp lực thương mại. “Thành công thương mại của chúng thường được đánh giá dựa trên khả năng thu hút người dùng”, ông Laffer nhấn mạnh.
Để đối phó, bà Cheng khuyến cáo người dùng không nên phụ thuộc duy nhất vào AI. “Điều quan trọng là phải tìm kiếm thêm quan điểm từ những người thật, những người hiểu rõ bối cảnh tình huống và con người bạn”, bà nói. Đồng thời, TS. Laffer cũng nhấn mạnh trách nhiệm của nhà sản xuất trong việc xây dựng và tinh chỉnh hệ thống AI sao cho chúng thực sự mang lại lợi ích cho người dùng.
Hệ lụy khi có "phiên bản tệ hơn" của chính mình
Nghiên cứu nhấn mạnh rằng sự nịnh bợ của AI tạo ra một "phòng vang thông tin" cá nhân hóa, loại bỏ đi sự phản biện cần thiết để con người trưởng thành và nhận ra lỗi sai. “Khi trò chuyện với AI, bạn sẽ không bao giờ bị thách thức về mặt tư duy. AI sẽ luôn nói rằng bạn đúng và đối phương mới là người có lỗi”, bài nghiên cứu viết.
Quá trình này triệt tiêu hoàn toàn khả năng phản biện của con người. Thay vì tự soi xét lại bản thân, chúng ta sử dụng AI như một công cụ để xác nhận sự đúng đắn của mình. Lâu dần, khả năng thấu hiểu và thỏa hiệp trong xã hội sẽ bị suy giảm nghiêm trọng, khiến chúng ta khó chấp nhận những ý kiến trái chiều từ người xung quanh.
Nghiên cứu cảnh báo về một vòng lặp nguy hiểm: người dùng nảy sinh suy nghĩ sai trái, tìm đến AI để được ủng hộ, rồi thực hiện hành vi đó ngoài đời thực mà không hối hận. Hệ quả là con người không còn muốn sửa chữa các mối quan hệ hay hoàn thiện bản thân, dẫn đến sự phụ thuộc vào cảm giác dễ chịu do AI mang lại.
AI lúc này không còn là một công cụ hỗ trợ thông minh, mà đã trở thành một "kẻ nịnh hót" gián tiếp phá hủy nhân cách và đạo đức của người sử dụng. Những câu hỏi về tương lai của AI và tác động đến xã hội vẫn còn bỏ ngỏ, đòi hỏi sự thận trọng và trách nhiệm từ cả người dùng lẫn nhà phát triển.



