XPengは、走行判断に先立って将来の交通状況を予測・推論する自動運転向けAIフレームワーク「X-Mind」を発表した。目の前の状況に反応する従来のアプローチから一歩進み、人のように先の展開をシミュレーションしながら運転判断を下す構成が特徴だ。
電気自動車関連メディアのCleanTechnicaによると、同社は1日(現地時間)、米デンバーで開かれたCVPR 2026のワークショップで、World Modelの技術ロードマップとあわせてX-Mindを初公開した。
X-Mindの中核にあるのは、自動運転システムを従来の「Perception-Action」中心の構成から、「Prediction-Reasoning」中心のアプローチへ転換する考え方だ。XPengは、高度な自動運転の実現には能動的な推論、制御可能な生成、長期的な予測能力が欠かせないとしている。
単に現在のシーンを認識するだけでなく、物理環境がこの先どのように変化するかを見越したうえで走行判断を行う必要があるという。
X-Mindは、XPengが最近公開したX-World、X-Foresight、X-Cacheに続く自動運転向けのAI基盤モデル。車載AIエージェントが将来の状況を先回りしてシミュレーションする「Visual Chain of Thought」の実装を狙う。
同社は、従来手法の限界についても説明した。テキストベースの推論では複雑な道路環境や空間情報を表現しにくく、将来の映像をそのまま生成する方式では、質感など自動運転に不要な情報まで含まれ、必要な意味情報が埋もれやすいという。
こうした課題に対応するため、X-Mindでは映像全体を生成するのではなく、車線、障害物、信号、走行経路、速度情報といった要素を抽出した「Thought Sketch」をまず生成する。これを基にモデル内部で高速シミュレーションを行い、最適な走行経路を導き出す仕組みだ。
XPengはあわせて、12フレーム分の将来シーンを96トークンに圧縮するディープコンプレッション・オートエンコーダ技術を適用したと明らかにした。長いコンテキストを処理する際の計算負荷を大幅に抑えたとしている。
リアルタイム処理も改善した。従来の拡散ベース生成モデルでは複数回の反復計算が必要だったが、X-Mindでは循環ブロック拡散メカニズムを採用し、1回のフォワードパスで将来の交通状況を生成できるよう設計したという。
同社によると、画像生成品質を示すFIDも従来方式より改善し、推論遅延はほとんど増加しなかった。
判断過程を視覚的に確認できる点も特徴の1つだ。X-Mindでは、行動決定の前段階で将来の障害物位置や車線の接続状態を内部でどう予測したかを可視化できる。
XPengは、こうした機能がアルゴリズムの検証に加え、利用者の信頼向上やソフトウェアのデバッグにも有効だとの見方を示した。
性能評価では、数億件規模の実走行データを学習したうえで、急ブレーキや高速道路の合流、複雑な交差点といった場面で、従来のVLAモデルより障害物や危険要素を速く予測したとしている。走行軌跡の誤差も低減し、突発的な状況での安全性や交通法規の順守性能も改善したという。
XPengは、X-Mindが車載半導体環境でも十分に動作する点も強調した。生画像や3Dガウシアン・スプラッティングを用いる既存手法に比べて計算負荷が小さく、量産車への適用可能性が高いとしている。
今後は、X-World、X-Foresight、X-Mindを統合基盤モデルへ発展させ、能動的推論と長期予測をさらに強化する計画だ。モデル規模やデータ量、学習目標を継続的に拡大し、VLA 2.0の性能向上も進めていると説明した。
環境理解、推論、意思決定、行動実行を包含する体系を、より広い関連分野へ拡張し、関連技術の開発と量産適用を加速する方針としている。