Kakaoは2月3日、自社開発したAI評価ベンチマークに関する論文が、AI分野の主要国際会議「ICLR 2026」に採択されたと発表した。エージェンティックAIの計画立案とツール実行を分離して評価できるのが特徴で、論文はGitHubで公開した。
ICLR 2026には約1万9000件の論文投稿があり、採択率は28%だったという。
Kakaoは、大規模言語モデル(LLM)がエージェンティックAIへと進化する流れを踏まえ、今回のベンチマークを開発した。エージェンティックAIは、一問一答型の応答にとどまらず、ユーザーの依頼に応じて作業を計画し、必要な処理を連携・調整しながら進める技術を指す。
今回の研究では、実サービス環境に近い場面での複数段階の処理や、複数領域にまたがる処理能力の評価に焦点を当てた。従来のベンチマークは個別機能の評価に偏りがちで、複雑な要求の解釈やツール活用能力を十分に検証しにくかったとして、作業計画とツール実行を分けて測定する新たなフレームワークを提示した。
ベンチマークには、旅行、ショッピング、金融、スケジュール管理など17分野のサービスドメインと、100を超える仮想ツールを盛り込んだ。ユーザーの依頼変更や追加質問といった対話の流れも反映し、実利用に近い評価を可能にしたとしている。
評価データは日本語と英語の2言語に対応する。全データを手作業で検証しており、日本語データについては文化的背景や文脈も踏まえて整備することで、精度と信頼性を確保したという。
Kakaoは、AIエコシステムの活性化に向けて論文をGitHubで公開した。
Kakaoは「オーケストレーションベンチマークは、エージェンティックAIが実サービス環境で安定して動作できるかを評価する中核的なツールだ」とコメントした。その上で、「AIが自律的に判断して実行する方向へ進化する中で意義のある研究成果だ。今後もエージェント間の協調やオーケストレーション能力の強化に向けた研究を続け、関連技術の高度化を進める」としている。