XPeng公布自动驾驶AI框架X-Mind：先预测未来路况，再生成驾驶决策

X-Mind的一大特点是提升自动驾驶系统判断过程的效率，并实现可视化呈现。图片来源：XPeng

XPeng公布面向自动驾驶的新一代车载AI框架X-Mind。与传统主要根据当前路况即时反应的方案不同，X-Mind强调在车辆执行动作前，先对未来交通变化进行预测和推理，再生成驾驶决策，整体思路更接近人类驾驶员对路况的预判过程。

据电动汽车媒体CleanTechnica当地时间1日报道，XPeng在美国丹佛举行的CVPR 2026工作坊上首次对外介绍X-Mind，并同步披露其World Model技术路线图。

XPeng表示，X-Mind的核心，是将自动驾驶系统从“感知-行动”（Perception-Action）架构，进一步推进到以“预测-推理”为核心的技术路径。公司认为，更高阶的自动驾驶不仅需要识别当前环境，还需要具备主动推理、可控生成和长期预测能力，即先判断物理环境将如何演变，再据此作出行驶决策。

从定位来看，X-Mind是XPeng基于物理AI思路推出的自动驾驶模型，也是继X-World、X-Foresight和X-Cache之后的又一项进展。该模型面向车内AI Agent设计，旨在构建“Visual Chain of Thought”，让系统先对未来情境进行内部推演，再完成决策。

XPeng同时指出了现有技术路线的局限。其一，基于文本的推理方式难以准确表达复杂道路环境中的空间关系和动态信息；其二，直接生成未来视频虽然信息完整，但会引入大量纹理等非关键内容，反而削弱自动驾驶真正需要的语义信息密度。

基于这一判断，X-Mind并不追求完整生成逼真的未来视频，而是先输出只保留关键要素的“思维草图”（Thought Sketch），覆盖车道线、障碍物、信号灯、行驶路径和速度等信息，再由模型在内部进行快速仿真，生成最优驾驶决策。

XPeng表示，为降低长上下文处理带来的算力负担，X-Mind引入深度压缩自动编码器技术，可将12帧未来场景压缩为96个token，在保证关键信息的同时提高处理效率。

在实时性方面，XPeng称，传统基于Diffusion的生成模型通常需要多轮迭代计算，而X-Mind采用循环块扩散机制，仅通过一次前向传播即可完成未来情境生成。公司表示，衡量图像生成质量的FID指标较既有方案明显改善，同时推理时延几乎没有增加。

X-Mind的另一项特点，是支持将系统判断过程可视化。该框架能够在车辆作出决策前，展示系统内部对未来障碍物位置、车道连接状态等信息的预测结果。XPeng认为，这不仅有助于算法验证，也有望提升用户信任度，并为软件调试提供便利。

在性能评估方面，XPeng表示，模型在学习数亿条真实驾驶数据后，在急刹车、高速并线、复杂路口等场景中，相较现有视觉-语言-行动（VLA）模型，能够更快识别障碍物和风险因素，同时在轨迹误差控制、安全性以及交规遵循表现等方面也有所提升。

XPeng还表示，X-Mind在提升推理速度的同时，也具备更低的计算开销，可在车载芯片上高效运行。与采用原始图像或3D Gaussian Splatting的既有方案相比，X-Mind对算力要求更低，量产落地的可行性也更高。

按照XPeng的规划，后续将把X-World、X-Foresight和X-Mind整合为统一的基础模型体系，进一步强化主动推理和长期预测能力。同时，公司还将持续扩大模型规模、数据量和训练目标，提升VLA 2.0性能，并把环境理解、推理、决策和行为执行等能力拓展至更广泛的具身智能领域，加快相关技术开发与量产应用。

Jinju Hong hongjj@d-today.co.kr

关键词