Google AI Overviews: Độ chính xác cao nhưng vẫn tiềm ẩn lỗi và thách thức
Google AI Overviews: Độ chính xác cao nhưng vẫn tiềm ẩn lỗi

Google AI Overviews: Độ chính xác cao nhưng vẫn tiềm ẩn lỗi và thách thức

The New York Times đưa tin, các câu trả lời do trí tuệ nhân tạo của Google tạo ra trông có vẻ đáng tin cậy, nhưng chúng lại dựa trên nhiều nguồn khác nhau, từ các trang web uy tín đến các bài đăng trên mạng xã hội như Facebook. Điều này làm dấy lên lo ngại về hiện tượng "ảo giác" trong AI, khi thông tin được trình bày một cách thuyết phục nhưng không hoàn toàn chính xác.

Phân tích độ chính xác và những con số đáng chú ý

Các phóng viên đã trao đổi với các công ty nghiên cứu về vấn đề này trước khi lựa chọn Oumi và mô hình xác thực AI HallOumi của họ để đánh giá Google thông qua bài kiểm tra chuẩn SimpleQA. Kết quả cho thấy, AI Overviews của Google chính xác khoảng 9/10 lần. Tuy nhiên, với hơn 5.000 tỷ lượt tìm kiếm mỗi năm, điều này đồng nghĩa với việc hàng chục triệu câu trả lời sai được đưa ra mỗi giờ, tương đương hàng trăm nghìn lỗi mỗi phút.

Một ví dụ điển hình là trường hợp của Stephen Punwasi, một nhà phân tích dữ liệu 41 tuổi ở Toronto. Khi ông tình cờ đọc tin vợ đô vật Hulk Hogan có thể kiện về cái chết của chồng và hỏi Google, AI đã trả lời rằng "Không có báo cáo đáng tin cậy nào cho thấy Hulk Hogan qua đời". Trong khi đó, ngay bên dưới, một bài báo từ Daily Mail lại đưa tin trái ngược hoàn toàn.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Sự tiến bộ công nghệ và những hạn chế còn tồn tại

Từ năm 2024, Google bắt đầu ưu tiên hiển thị câu trả lời AI ở đầu trang kết quả, chuyển vai trò từ biên tập viên thông tin sang nhà xuất bản. Phân tích của Oumi cho thấy, với công nghệ Gemini 2 vào tháng 10, độ chính xác đạt 85%, và đã tăng lên 91% với Gemini 3 vào tháng 2. Ông Pratik Verma, CEO của Okahu, nhận định công nghệ của Google ngang bằng với các hệ thống AI hàng đầu, nhưng vẫn khuyến nghị người dùng nên kiểm chứng thông tin từ nhiều nguồn.

Tuy nhiên, Google thừa nhận AI Overviews có thể mắc lỗi, với dòng chữ nhỏ cảnh báo: "A.I. có thể mắc lỗi, hãy kiểm tra kỹ lại câu trả lời." Công ty cũng phản bác phân tích của Oumi, cho rằng nó dựa trên bài kiểm tra của OpenAI chứa thông tin không chính xác và không phản ánh tìm kiếm thực tế của người dùng.

Vấn đề nguồn dẫn và khả năng bị thao túng

Một thách thức lớn là việc AI Overviews thường xuyên trích dẫn các nguồn như Facebook và Reddit. Trong phân tích, Facebook là nguồn được trích dẫn nhiều thứ hai, chiếm 5% khi câu trả lời đúng và 7% khi sai. Ví dụ, khi hỏi về năm nhà Bob Marley chuyển thành bảo tàng, AI đưa ra năm 1987, liên kết đến trang Facebook của con gái ông và một blog du lịch, cả hai đều không cung cấp thông tin chính xác.

Hơn nữa, AI Overviews có thể bị thao túng. Lily Ray từ Amsive chỉ ra rằng ai đó chỉ cần viết blog tự xưng là chuyên gia để được AI công nhận. Thomas Germain đã chứng minh điều này bằng cách đăng blog giả về giải vô địch ăn xúc xích, và Google sau đó xếp ông là nhà báo công nghệ ăn xúc xích giỏi nhất, trích dẫn thông tin từ blog đó như sự thật.

Những sai sót cụ thể và tác động đến người dùng

Ngay cả khi AI xác định đúng nguồn, nó vẫn có thể hiểu sai thông tin. Khi hỏi về sông chảy phía tây Goldsboro, Bắc Carolina, AI cho rằng đó là sông Neuse, trong khi thực tế là sông Little. Trong một trường hợp khác, khi hỏi về Yo-Yo Ma được vinh danh vào Đại sảnh Danh vọng Âm nhạc Cổ điển, AI liên kết đúng trang web nhưng lại trả lời không có hồ sơ.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Ông Manos Koukoumidis, CEO của Oumi, đặt câu hỏi: "Ngay cả khi câu trả lời là đúng, làm sao bạn biết chắc đó là sự thật? Làm sao bạn có thể kiểm tra?" Điều này phản ánh bản chất của AI hiện đại: chúng dựa trên xác suất toán học để đoán câu trả lời, không phải quy tắc nghiêm ngặt, dẫn đến những lỗi không thể tránh khỏi.

Cuối cùng, dù Google đã cải thiện độ chính xác, nhưng tỷ lệ câu trả lời đúng nhưng thiếu nguồn dẫn rõ ràng đã tăng từ 37% lên 56% với Gemini 3. Điều này khiến việc kiểm tra thông tin trở nên khó khăn hơn, đặt ra câu hỏi lớn về độ tin cậy của AI trong kỷ nguyên số.