KAIST与Microsoft Research研发大语言模型时间推理自动评测诊断系统

生成中...

Jin-ho Lee

发布时间 2026-04-14 08:18:59

搜索关键词

KAIST于14日表示，电气与电子工程系教授Eui-jong Hwang研究团队已与Microsoft Research联合研发出一套可对大语言模型（LLM）时间推理能力进行自动评测和诊断的系统。

随着AI被应用到更多现实场景，模型能否准确理解持续变化的时间信息，正成为衡量其可靠性的重要指标。不过，现有评测方法大多仍停留在答案对错比对层面，难以充分反映复杂时间关系，存在明显局限。

为解决这一问题，研究团队首次将时态数据库（Temporal Database）设计理论引入AI评测。基于数据的时间属性及其关联结构，系统无需人工逐题编写评测内容，仅依托数据库即可自动生成13类复杂时间推理题目。

这也意味着，评测方式从传统的人工出题，转向数据驱动的自动出题。系统以数据库为基础，可自动完成题目生成、答案推导和结果验证，减少了以往反复手动修改题目的工作量和维护成本。

当现实信息发生变化时，系统只需更新数据库中的相关内容，题目、答案和验证标准便可同步更新。无论是通过外部数据源导入，还是由管理人员维护，数据更新后都可自动触发完整评测流程。

研究团队还引入了一项新的评测指标，用于检验模型在回答过程中给出的日期或时间跨度是否符合逻辑。借助这一指标，系统对“时间幻觉”（Temporal Hallucination）的识别率平均提升21.7%。与此同时，由于信息变更仅需更新数据库，评测维护成本显著下降，人工输入数据量较原有方案平均减少51%。

Eui-jong Hwang表示，这是利用经典数据库设计理论解决前沿AI可信性问题的一个案例。若能将海量专业数据进一步转化为评测资源，这一方法有望成为医疗、法律等领域AI性能验证的基础。

该研究获得了Microsoft Research、韩国国家研究基金会以及信息通信企划评价院（IITP）全球AI前沿实验室项目支持。KAIST博士生Soyeon Kim为第一作者，Microsoft Research的Jindong Wang和Xing Xie为共同作者。相关成果预计将于本月在AI领域顶级学术会议ICLR 2026上发表。

Jin-ho Lee jhlee26@d-today.co.kr