KAIST、LLMの時間推論を自動評価する診断システム開発

KAISTは14日、ファン・ウィジョン電気・電子工学部教授の研究チームがMicrosoft Researchとの共同研究で、大規模言語モデル（LLM）の時間推論能力を自動で評価・診断するシステムを開発したと発表した。

AIが現実世界の情報を適切に扱うには、時間とともに変化する事実関係を正確に理解する能力が欠かせない。だが従来の評価手法は、正誤の一致だけを確認するものが多く、複雑な時間関係まで十分に検証できないという課題があった。

今回の研究では、研究チームが「時間データベース（Temporal Database）」の設計理論をAIの評価に導入した。データの時間的な流れと関係構造を活用することで、人手で設問を個別に作成しなくても、データベースだけで13種類の複雑な時間関係を問う問題を自動生成できるようにした。

特徴は、評価問題を人手で作る方式から、データに基づいて自動生成する方式へと転換した点にある。データベースを基準に、問題生成から正答の導出、検証までの一連の工程を自動化し、従来のように設問を逐次修正する負担を抑えた。

現実の情報が更新された場合も、データベースを更新すれば、評価問題や正答、検証基準に自動で反映される。最新情報の投入自体は外部データや管理者を通じて行い、更新後は評価全体を自動実行する仕組みだという。

さらに研究チームは、回答過程で示された日付や期間の論理的な妥当性まで検証する新たな指標も導入した。これにより、時間的根拠に誤りがある「時間的ハルシネーション（Temporal Hallucination）」の検知精度を平均21.7%向上させたとしている。情報更新時はデータベースの修正だけで済むため、評価の維持コストを大幅に下げられるほか、必要な入力データ量も従来比で平均51%削減できたという。

ファン教授は「古典的なデータベース設計理論が、最先端AIの信頼性の課題解決に重要な役割を果たし得ることを示した事例だ」とコメント。「膨大な専門データを評価資源に転換し、今後は医療や法律など多様な分野でのAI性能検証の基盤になることを期待している」と述べた。

今回の研究は、Microsoft Research、韓国研究財団、情報通信企画評価院（IITP）のグローバルAIフロンティアラボ課題の支援を受けた。KAIST博士課程のキム・ソヨン氏が筆頭著者を務め、Microsoft Researchのジンドン・ワン氏とシン・シエ氏が共同著者として参加した。研究成果は今月、AI分野の主要学術会議「ICLR 2026」で発表される予定。

Jin-ho Lee jhlee26@d-today.co.kr

キーワード