AI评测系统示意图(AI生成)。图片来源:KAIST

KAIST于14日表示,电气与电子工程系教授Eui-jong Hwang研究团队已与Microsoft Research联合研发出一套可对大语言模型(LLM)时间推理能力进行自动评测和诊断的系统。

随着AI被应用到更多现实场景,模型能否准确理解持续变化的时间信息,正成为衡量其可靠性的重要指标。不过,现有评测方法大多仍停留在答案对错比对层面,难以充分反映复杂时间关系,存在明显局限。

为解决这一问题,研究团队首次将时态数据库(Temporal Database)设计理论引入AI评测。基于数据的时间属性及其关联结构,系统无需人工逐题编写评测内容,仅依托数据库即可自动生成13类复杂时间推理题目。

这也意味着,评测方式从传统的人工出题,转向数据驱动的自动出题。系统以数据库为基础,可自动完成题目生成、答案推导和结果验证,减少了以往反复手动修改题目的工作量和维护成本。

当现实信息发生变化时,系统只需更新数据库中的相关内容,题目、答案和验证标准便可同步更新。无论是通过外部数据源导入,还是由管理人员维护,数据更新后都可自动触发完整评测流程。

研究团队还引入了一项新的评测指标,用于检验模型在回答过程中给出的日期或时间跨度是否符合逻辑。借助这一指标,系统对“时间幻觉”(Temporal Hallucination)的识别率平均提升21.7%。与此同时,由于信息变更仅需更新数据库,评测维护成本显著下降,人工输入数据量较原有方案平均减少51%。

Eui-jong Hwang表示,这是利用经典数据库设计理论解决前沿AI可信性问题的一个案例。若能将海量专业数据进一步转化为评测资源,这一方法有望成为医疗、法律等领域AI性能验证的基础。

该研究获得了Microsoft Research、韩国国家研究基金会以及信息通信企划评价院(IITP)全球AI前沿实验室项目支持。KAIST博士生Soyeon Kim为第一作者,Microsoft Research的Jindong Wang和Xing Xie为共同作者。相关成果预计将于本月在AI领域顶级学术会议ICLR 2026上发表。

关键词

#KAIST #Microsoft Research #大语言模型 #时间推理 #时态数据库 #自动评测系统 #时间幻觉 #ICLR 2026 #IITP
版权所有 © DigitalToday。未经授权禁止转载或传播。