Ngày 2/7, Xiaopeng công bố X-Mind, mô hình trí tuệ nhân tạo (AI) dành cho xe tự lái có khả năng dự báo và suy luận về bối cảnh giao thông tương lai trước khi đưa ra quyết định điều khiển. Theo hãng, công nghệ này không chỉ phản ứng với tình huống trước mắt mà còn mô phỏng trước các kịch bản có thể xảy ra, theo cách gần với quá trình ra quyết định của con người.
Theo CleanTechnica, ngày 1/7 theo giờ địa phương, Xiaopeng lần đầu giới thiệu X-Mind tại workshop thuộc Hội nghị Thị giác Máy tính CVPR 2026 diễn ra ở Denver, Mỹ. Tại đây, hãng cũng công bố lộ trình phát triển công nghệ World Model.
Trọng tâm của X-Mind là chuyển kiến trúc tự lái từ mô hình “Perception-Action” sang cách tiếp cận lấy “dự báo - suy luận” làm trung tâm. Xiaopeng cho biết hệ thống tự lái cấp cao đòi hỏi khả năng suy luận chủ động, tạo sinh có kiểm soát và dự báo dài hạn. Nói cách khác, xe không chỉ nhận diện môi trường hiện tại mà còn phải ước tính trước cách môi trường vật lý sẽ thay đổi để lựa chọn phương án vận hành phù hợp.
X-Mind là một mô hình AI mô phỏng thế giới vật lý phục vụ xe tự lái, tiếp nối các công bố gần đây của Xiaopeng như X-World, X-Foresight và X-Cache. Hệ thống được thiết kế để tác nhân AI trên xe triển khai “Visual Chain of Thought”, tức mô phỏng trước các tình huống tương lai rồi mới ra quyết định.
Xiaopeng cũng chỉ ra những hạn chế của các phương pháp hiện nay. Theo hãng, suy luận dựa trên văn bản khó thể hiện được chính xác môi trường đường sá phức tạp cùng các thông tin không gian, trong khi việc dựng trực tiếp toàn bộ video của tương lai lại chứa quá nhiều chi tiết không cần thiết, như kết cấu bề mặt, khiến tín hiệu ngữ nghĩa phục vụ tự lái bị phân tán.
Để khắc phục, X-Mind không tái tạo toàn bộ chuỗi video tương lai mà trước tiên dựng một “Thought Sketch” chỉ gồm các yếu tố cốt lõi như làn đường, chướng ngại vật, đèn tín hiệu, lộ trình di chuyển và thông tin tốc độ. Từ lớp dữ liệu này, mô hình chạy mô phỏng tốc độ cao để tính toán quỹ đạo tối ưu.
Xiaopeng cho biết đã áp dụng autoencoder nén sâu, giúp nén bối cảnh tương lai gồm 12 khung hình xuống còn 96 token. Cách tiếp cận này làm giảm đáng kể chi phí tính toán khi xử lý ngữ cảnh dài.
Khả năng xử lý thời gian thực cũng được cải thiện. Nếu các mô hình tạo sinh dựa trên Diffusion truyền thống phải thực hiện nhiều vòng tính toán lặp, X-Mind sử dụng cơ chế diffusion theo khối tuần hoàn, cho phép tạo bối cảnh tương lai chỉ qua một lượt suy luận. Theo Xiaopeng, chỉ số FID đo chất lượng tạo ảnh đã cải thiện đáng kể so với phương pháp cũ, trong khi độ trễ suy luận gần như không tăng.
Một điểm đáng chú ý khác là khả năng trực quan hóa quá trình ra quyết định. X-Mind có thể cho thấy cách hệ thống dự báo vị trí chướng ngại vật và mối liên kết giữa các làn đường trước khi xe chọn hành động. Xiaopeng kỳ vọng tính năng này sẽ hỗ trợ kiểm chứng thuật toán, tăng niềm tin của người dùng và đơn giản hóa việc gỡ lỗi phần mềm.
Trong các bài đánh giá hiệu năng, sau khi được huấn luyện trên hàng trăm triệu bộ dữ liệu lái xe thực tế, X-Mind được Xiaopeng giới thiệu là có khả năng dự báo chướng ngại vật và rủi ro nhanh hơn các mô hình thị giác - ngôn ngữ - hành động (VLA) hiện có trong những tình huống như phanh gấp, nhập làn trên cao tốc và giao lộ phức tạp. Hãng cho biết mô hình này còn giúp giảm sai số quỹ đạo, cải thiện độ an toàn và nâng khả năng tuân thủ luật giao thông trong các tình huống bất ngờ.
Xiaopeng nhấn mạnh đã tối ưu tốc độ suy luận để X-Mind có thể vận hành đầy đủ trên nền tảng chip dành cho ô tô. So với các cách tiếp cận sử dụng ảnh thô hoặc 3D Gaussian Splatting, hệ thống có tải tính toán thấp hơn, từ đó tăng khả năng triển khai trên xe thương mại.
Trong thời gian tới, Xiaopeng dự kiến phát triển X-World, X-Foresight và X-Mind để trở thành một hệ thống mô hình nền tảng tích hợp, nhằm tăng cường năng lực suy luận chủ động và dự báo dài hạn. Công ty cũng cho biết đang mở rộng quy mô mô hình, dữ liệu và mục tiêu huấn luyện để nâng hiệu năng VLA 2.0, đồng thời mở rộng năng lực từ hiểu môi trường, suy luận, ra quyết định và thực thi hành động sang phạm vi embodied AI rộng hơn, qua đó đẩy nhanh quá trình phát triển và thương mại hóa.