LG AI研究院は4月9日、テキストと画像を同時に理解し、推論できるマルチモーダルAIモデル「EXAONE 4.5」を公開した。契約書や技術図面、財務諸表、スキャン文書といった複合文書の読解と推論を強みとするモデルで、Hugging Faceを通じて研究・学術・教育用途向けに提供する。
今回のモデルは、同研究院が進める独自AI基盤モデルプロジェクト「K-EXAONE」におけるモダリティ拡張に向けた準備段階と位置付ける。LG AI研究院は、今年8月に第2段階のプロジェクトを終える予定の後、第3段階への移行が決まれば本格的なモダリティ拡張に着手する計画だ。最終的には、EXAONEを仮想空間にとどまらず、物理世界を理解し判断できるフィジカルインテリジェンスへ発展させることを目指すとしている。
LG AI研究院によると、EXAONE 4.5は産業現場で扱う複合文書の読み取りと推論で高い性能を示した。STEM(科学・技術・工学・数学)分野の性能を測る5つの指標の平均では77.3点を記録し、OpenAIのGPT5ミニ(73.5点)、AnthropicのClaude Sonnet 4.5(74.6点)、AlibabaのQwen3 235B(77.0点)を上回ったという。
また、一般的な視覚理解を測る3指標に加え、インフォグラフィックを含む専門文献内の複合情報を読み解く文書理解・推論の5指標を含む計13指標の平均でも、GPT5ミニ、Claude Sonnet 4.5、Qwen3-VLを上回る性能を示したとしている。
個別指標では、コーディング性能の代表的なベンチマーク「LiveCodeBench v6」で81.4点を記録し、GoogleのGemma 4(80.0点)を上回った。複雑なチャートの分析・推論能力を評価する「ChartQA Pro」では62.2点だった。
LG AI研究院の関係者は、「視覚能力に関する評価指標で高い平均点を記録したことは、AIが文書内の文字や非定型データを単に認識する段階を超え、文脈を把握した上で質問に答える理解力を備えたことを意味する」と説明している。
提供形態としては、Hugging Faceで研究・学術・教育用途向けに公開した。対応言語も韓国語と英語に加え、スペイン語、ドイツ語、日本語、ベトナム語まで公式サポートを広げた。
LG AI研究院でEXAONEラボ長を務めるイ・ジンシク氏は、「EXAONE 4.5は、LGのAIがテキストを超え、視覚情報まで理解するマルチモーダル時代に入ったことを示すモデルだ」とコメントした。その上で、「今回のモデルを起点に、音声や映像、物理環境までAIの理解範囲を広げ、産業現場で実質的に判断し行動できるAIを実現していく」と述べた。