Dù ngày càng được sử dụng để kiểm chứng thông tin, AI vẫn cho thấy độ nhất quán thấp khi xử lý cùng một nội dung. Trong thử nghiệm với 1.000 tuyên bố, 5 mô hình AI chỉ đưa ra cùng một kết luận ở 328 trường hợp, còn lại hơn hai phần ba có sự khác biệt trong đánh giá.
Ngày 1/6 theo giờ địa phương, Gizmodo dẫn thông tin từ dịch vụ fact-check Lenz cho biết công ty này đã đối chiếu mức độ nhất quán trong đánh giá của các mô hình ngôn ngữ lớn đối với 1.000 tuyên bố do người dùng gửi lên.
Thử nghiệm sử dụng 5 mô hình gồm GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search và Sona Pro. Mỗi mô hình phải xếp từng tuyên bố vào một trong bốn nhãn: “đúng”, “phần lớn đúng”, “dễ gây hiểu lầm” hoặc “sai”.
Kết quả cho thấy mức độ chênh lệch lớn hơn dự kiến. Trong 1.000 tuyên bố được kiểm tra, chỉ có 328 trường hợp cả 5 mô hình cùng đưa ra một nhãn.
Ở 672 trường hợp còn lại, ít nhất một mô hình đưa ra kết luận khác. Đáng chú ý, có 132 trường hợp phân tán đến mức không có nhãn nào giành được đa số.
Theo Lenz, điều này cho thấy khác biệt không chỉ xuất hiện ở một vài câu trả lời đơn lẻ. Trong nhiều tình huống, các mô hình không thể hình thành một kết luận tương đối thống nhất dù cùng đánh giá một tuyên bố.
Sự khác biệt này cũng xuất hiện trong các ví dụ cụ thể. Một trường hợp do Lenz công bố liên quan đến tuyên bố rằng Tổng thống Ukraine Volodymyr Zelenskyy được đề cử cho giải Nobel Hòa bình 2026. GPT-5.4 và Gemini 3 Pro xếp tuyên bố này là “sai”, trong khi Gemini 3 Pro + Search và Sona Pro đánh giá là “đúng”. Kết quả xác minh sau đó cho thấy ông Zelenskyy thực sự đã được đề cử cho giải Nobel Hòa bình 2026.
Lenz cho biết chênh lệch giữa các mô hình cũng xuất hiện ở những nội dung tương đối dễ kiểm tra, như việc một người nổi tiếng có đưa ra phát ngôn nào đó hay không, những khẳng định mang tính khái quát trong tâm lý học, hoặc số liệu từ Ngân hàng Thế giới.
Xu hướng đánh giá cũng khác nhau tùy mô hình. GPT-5.4, Claude Opus 4.7 và Sona Pro có xu hướng chọn các nhãn trung gian như “phần lớn đúng” hoặc “dễ gây hiểu lầm”.
Trong khi đó, nhóm Gemini 3 Pro thường đưa ra kết luận dứt khoát hơn, theo hướng “đúng” hoặc “sai”. Điều này cho thấy với cùng một tác vụ fact-check, kết quả có thể thay đổi tùy theo cách từng mô hình tiếp cận vấn đề, thận trọng hơn hay thiên về phân loại nhị phân.
Lenz nhấn mạnh mục tiêu của nghiên cứu không phải để chọn ra mô hình tốt nhất. Công ty cho biết đang tiến hành nghiên cứu bổ sung, trong đó con người sẽ gán nhãn chuẩn cho cùng các tuyên bố để làm cơ sở đối chiếu độ chính xác của từng mô hình.
Theo Lenz, điểm quan trọng của nghiên cứu là làm lộ rõ mức độ thiếu nhất quán giữa các mô hình, đồng thời xác định loại tuyên bố nào dễ tạo ra khác biệt lớn trong đánh giá.
Kết quả này cũng phản ánh giới hạn của hoạt động tìm kiếm và kiểm chứng thông tin dựa trên AI. Ngay cả với những nội dung có thể xác minh tương đối khách quan như dữ liệu công khai hoặc thông tin về nhân vật, các mô hình vẫn có thể đưa ra kết luận khác nhau. Điều đó đồng nghĩa người dùng khó có thể xem câu trả lời của một AI đơn lẻ là sự thật đã được kiểm chứng.
Các mô hình tích hợp chức năng tìm kiếm cũng không mặc nhiên chính xác hơn hoặc nhất quán hơn trong mọi trường hợp.
Giới chuyên môn cho rằng trong thời gian tới, việc xác định nhóm tuyên bố nào thường phát sinh nhiều bất đồng, cũng như mô hình nào lệch nhiều nhất so với đánh giá của con người, sẽ trở thành tiêu chí quan trọng để đo mức độ tin cậy của các dịch vụ fact-check dùng AI.
AI đang nổi lên như một công cụ mới trong kiểm chứng thông tin. Tuy vậy, ở giai đoạn hiện nay, việc đối chiếu kết quả giữa nhiều mô hình và duy trì bước xác minh cuối cùng của con người vẫn là yêu cầu cần thiết.