AI Overviews, tính năng tóm tắt bằng AI xuất hiện ở đầu trang Google Search, được đánh giá có độ chính xác khoảng 90%. Tuy nhiên, với quy mô truy vấn khổng lồ của Google, tỷ lệ sai khoảng 10% này vẫn có thể tương đương hàng triệu câu trả lời sai mỗi giờ, tương đương hàng chục triệu mỗi ngày.
Ngày 7/4 (giờ địa phương), Ars Technica dẫn phân tích của The New York Times về những tranh luận xoay quanh độ chính xác của AI Overviews, cùng phản hồi từ Google.
Theo bài phân tích, The New York Times đã phối hợp với startup AI Oumi sử dụng bộ benchmark SimpleQA để kiểm tra độ chính xác của AI Overviews. SimpleQA là bộ câu hỏi gồm hơn 4.000 câu có thể kiểm chứng, thường được dùng để đo độ chính xác về mặt dữ kiện của các hệ thống AI tạo sinh.
Kết quả cho thấy khi AI Overviews sử dụng Gemini 2.5, độ chính xác đạt khoảng 85%. Sau khi chuyển sang Gemini 3, con số này tăng lên 91%. Dù vậy, mức này vẫn đồng nghĩa tỷ lệ sai vào khoảng 10%, và khi nhân với lưu lượng tìm kiếm thực tế, số câu trả lời sai có thể ở mức rất lớn.
The New York Times cũng đưa ra một số ví dụ cụ thể. Với câu hỏi về thời điểm ngôi nhà cũ của ca sĩ Bob Marley được chuyển thành bảo tàng, AI Overviews dẫn nhiều nguồn nhưng một số nguồn không chứa thông tin liên quan, đồng thời chọn nhầm năm giữa các dữ kiện mâu thuẫn. Ở một truy vấn khác về việc nghệ sĩ cello Yo-Yo Ma có được vinh danh trong một “đại sảnh danh vọng nhạc cổ điển” hay không, hệ thống vừa trích dẫn các trang có liên quan, vừa đưa ra câu trả lời mâu thuẫn rằng “đại sảnh danh vọng này không tồn tại”.
Phía Google bác bỏ kết luận trên và cho rằng bộ benchmark được sử dụng có vấn đề về độ tin cậy. Người phát ngôn Ned Adriance nói SimpleQA có chứa dữ liệu không chính xác, đồng thời cho biết Google đang sử dụng phương pháp đánh giá nội bộ tương tự SimpleQA Verified nhưng có quy trình kiểm chứng nghiêm ngặt hơn. Theo ông, nghiên cứu này mắc “những khiếm khuyết nghiêm trọng” và không phản ánh đúng hành vi tìm kiếm thực tế của người dùng.
Bài viết cũng lưu ý rằng việc đo độ chính xác của AI tạo sinh vốn đã phức tạp. Cùng một câu hỏi, hệ thống có thể cho ra các kết quả khác nhau ở mỗi lần chạy, trong khi chính công cụ đánh giá cũng có thể phát sinh sai số.
Ngoài ra, AI Overviews không vận hành dựa trên một mô hình duy nhất mà là hệ thống đa mô hình. Google cho biết hệ thống sẽ chọn mô hình phù hợp tùy theo loại truy vấn; trong một số trường hợp, công ty ưu tiên các mô hình gọn nhẹ để cân bằng giữa tốc độ và chi phí, thay vì luôn sử dụng mô hình có hiệu năng cao nhất.
Theo The New York Times, trọng tâm của tranh cãi nằm ở việc AI đang thay đổi cách người dùng tìm kiếm thông tin. Khác với mô hình hiển thị “các liên kết màu xanh” truyền thống, phần trả lời tóm tắt bằng AI được đặt ở vị trí đầu trang, làm tăng nguy cơ người dùng tiếp nhận thông tin sai. Google hiện cũng hiển thị cảnh báo dưới AI Overviews với nội dung: “AI có thể mắc lỗi, hãy kiểm tra lại câu trả lời”.