| 移动网页

KAIST与Microsoft Research研发大语言模型时间推理自动评测诊断系统

KAIST表示,该校电气与电子工程系教授Eui-jong Hwang团队与Microsoft Research联合研发出一套面向大语言模型时间推理能力的自动评测系统。该系统基于时态数据库(Temporal Database)设计理论,可自动完成题目生成、答案推导和结果验证,并覆盖13类时间推理题目。团队同时引入新的评测指标,用于检验回答中的日期和时间跨度是否符合逻辑,使“时间幻觉”(Temporal Hallucination)识别率平均提升21.7%,人工输入数据量平均减少51%。