KAIST ngày 14/4 cho biết nhóm nghiên cứu do giáo sư Hwang Eui-jong thuộc Khoa Kỹ thuật Điện và Điện tử dẫn dắt đã hợp tác với Microsoft Research để phát triển một hệ thống tự động đánh giá và chẩn đoán khả năng suy luận thời gian của các mô hình ngôn ngữ lớn (LLM).
Theo KAIST, để AI có thể hiểu chính xác các thông tin thực tế luôn thay đổi theo thời gian, năng lực suy luận thời gian là yếu tố quan trọng. Tuy nhiên, các phương pháp đánh giá hiện nay chủ yếu dừng ở việc kiểm tra đáp án đúng hay sai, nên chưa phản ánh đầy đủ các quan hệ thời gian phức tạp.
Để khắc phục hạn chế này, nhóm nghiên cứu lần đầu áp dụng lý thuyết thiết kế temporal database vào bài toán đánh giá AI. Dựa trên dòng thời gian và cấu trúc quan hệ của dữ liệu, hệ thống có thể tự động tạo ra 13 nhóm câu hỏi thời gian phức tạp trực tiếp từ cơ sở dữ liệu mà không cần biên soạn thủ công.
Điểm nổi bật của phương pháp là chuyển từ cách xây dựng bộ câu hỏi do con người thực hiện sang cơ chế tự sinh câu hỏi dựa trên dữ liệu. Toàn bộ quy trình, từ tạo câu hỏi, suy ra đáp án đến đối chiếu và kiểm chứng với cơ sở dữ liệu, đều được tự động hóa.
Khi thông tin thực tế thay đổi, hệ thống chỉ cần cập nhật dữ liệu trong cơ sở dữ liệu là có thể tự động phản ánh thay đổi đó vào câu hỏi, đáp án và tiêu chí kiểm chứng. Dữ liệu mới có thể được bổ sung từ nguồn bên ngoài hoặc bởi quản trị viên, sau đó hệ thống sẽ tự động thực hiện toàn bộ quá trình đánh giá.
Nhóm nghiên cứu cũng đưa vào một chỉ số mới để kiểm tra tính hợp lý về mặt logic của các mốc ngày và khoảng thời gian xuất hiện trong câu trả lời. Nhờ đó, hệ thống phát hiện hiện tượng “ảo giác thời gian” do suy luận sai về mốc thời gian với độ chính xác cao hơn trung bình 21,7% so với trước đây.
Ngoài ra, do chỉ cần cập nhật cơ sở dữ liệu khi thông tin thay đổi, chi phí duy trì hệ thống đánh giá có thể giảm đáng kể. Lượng dữ liệu đầu vào cần thiết cũng giảm trung bình 51% so với trước.
Giáo sư Hwang Eui-jong cho biết nghiên cứu này cho thấy các lý thuyết thiết kế cơ sở dữ liệu kinh điển vẫn có thể đóng vai trò quan trọng trong việc giải quyết bài toán độ tin cậy của AI hiện đại. Ông kỳ vọng việc chuyển đổi các bộ dữ liệu chuyên ngành quy mô lớn thành nguồn lực đánh giá sẽ trở thành nền tảng để kiểm chứng hiệu năng AI trong nhiều lĩnh vực như y tế và pháp lý.
Nghiên cứu được hỗ trợ bởi Microsoft Research, Quỹ Nghiên cứu Quốc gia Hàn Quốc và Viện Kế hoạch và Đánh giá Công nghệ Thông tin - Truyền thông (IITP) trong khuôn khổ dự án Global AI Frontier Lab.
Nghiên cứu sinh tiến sĩ Kim So-yeon của KAIST là tác giả thứ nhất của công trình. Jindong Wang và Xing Xie từ Microsoft Research tham gia với vai trò đồng tác giả. Kết quả nghiên cứu dự kiến sẽ được trình bày trong tháng này tại ICLR 2026.