8月に予定される独自AI基盤モデルの2次評価に向け、参画4社がエージェント機能の強化を急いでいる。開発の焦点は、単純なQ&A性能ではなく、外部検索やデータベース、コード実行などのツールを呼び出して実務をこなす能力へと移っている。
背景には、グローバルLLMの競争軸の変化がある。LLMの活用範囲が対話中心から実務処理へ広がる中、外部ツールとの連携を含むオーケストレーション能力が中核要件として重視されるようになった。
OpenAI、Anthropic、Googleは2024年末以降、新モデルの発表にあたり、エージェント性能やツール呼び出し能力に関するベンチマークを前面に打ち出している。
こうした流れを受け、独自AI基盤モデルに参画する各社も対応を進めている。
LG AI研究院は、「K-EXAONE(EXAONE)」の2次評価向けモデルで、オーケストレーション能力の高度化を重点課題に据える。1次評価では基礎的な言語性能が中心だったが、2次評価ではエージェントとしてのタスク遂行能力へ軸足を移した。
同研究院は、グループ企業や顧客企業のAXプロジェクトでの活用を見据えた判断だと説明する。企業がオーケストレーターを使って生産性向上を実感すれば、継続利用につながりやすいという見方だ。
EXAONEを関連会社やパートナー企業の実務に投入するためのチューニングも並行して進めている。3年前に同様の取り組みを進めた際には、データ受領、学習データの品質検討、評価、学習の各工程にそれぞれ数カ月を要し、約1年で中断に追い込まれたという。
その経験を踏まえ、現在は開発速度と品質の両面を引き上げたとしている。
LG AI研究院の関係者は「一部のエージェント処理にはすでに対応している」としたうえで、「独自AI基盤モデル開発の終盤では速度面に課題があったが、複数の研究チームが補強に入り、約2週間でオーケストレーション能力を大きく高めた」と述べた。
Upstageは、独自AI基盤モデルの競合モデルとなる「Sola Open2 Preview」をこのほど公開し、エージェント性能の向上を強調した。関連指標もあわせて公表している。
同社によると、Sola Open2 Previewのエージェント性能はTau2ベンチマークで98%を記録した。DeepSeek V4 Proの96.2%を上回り、AnthropicのFable5の98.5%に近い水準だとしている。
この数値は、AI性能評価機関のArtificial Analysisが独立して測定したものだと説明した。
Upstageのキム・ソンフン代表は「1次モデルはメディア校閲やQ&A、検索には使えたが、エージェント用途ではツール呼び出しに対応できなかった」としたうえで、「6月に投入したモデルは、エージェント利用にも十分活用できる」と述べた。
さらに「AIはもはや単なるサービスやツールではなく、国家の戦略資産になった」とし、「その気になればどの国からでも遮断できる。自前で高められる技術は最大限高めるべきだ」と強調した。
SK Telecomも、2次評価向けの新モデル「A.X K2」をエージェント機能重視で開発している。前バージョンの「A.X K1」から、コーディングとエージェント性能の強化に注力してきた。
同社は、K2が複数のドメインやシナリオで活用できるエージェント性能を備える見通しだと説明する。ソウル大学のファン・スンウォン教授の研究チームによる、エージェント分野の研究成果も反映したという。
SK Telecomの関係者は「2次評価に提出する新モデルを開発しており、多様な形で活用できるエージェント性能を備えることになる」と話した。
Motif Technologiesも、2次評価向けに開発する300B級LLMで、エージェント性能の高度化を目標に掲げる。海外のオープンソースのアーキテクチャを使わず、独自設計のモデルである点を差別化要素として打ち出している。
同社は、エージェント性能でも競争力を示す方針だ。
Motif Technologiesのイム・ジョンファン代表は「ClaudeなどグローバルLLMの開発目標が、エージェントが使うツールを呼び出す能力中心へ移っているため、独自AI基盤モデルもこれに合わせている」とし、「Motif Technologiesも同じ方向で開発目標を定めている」と述べた。
韓国科学技術情報通信部は、4社を対象とした独自AI基盤モデルの2次評価を8月初旬に同時実施する。モデル提出期限は、LG AI研究院、SK Telecom、Upstageの3社が6月末、Motif Technologiesが7月末となっている。