nuReasoning

nuReasoning:
A Reasoning-Centric Dataset and Benchmark
for Long-Tail Autonomous Driving

Zhiyu Huang^1,* Johnson Liu^1,* Rui Song^1,* Zewei Zhou^1,2 Ruining Yang²
Yun Zhang¹ Tianhui Cai¹ Hanyin Zhang¹ Mingxuan Gao¹ Valeria Xu¹
Jiali Chen¹ Yishan Shen² Yiluan Guo² Tony (Xuewei) Qi^2,† Jiaqi Ma¹

^*Equal contribution. ^†Project lead. Corresponding author.

Overview

nuReasoning is a large-scale real-world long-tail driving dataset containing 20K 20-second clips across diverse scenario types. The dataset provides high-quality reasoning annotations spanning spatial reasoning, driving decisions, and counterfactual reasoning. Compared with prior datasets, nuReasoning offers substantially larger-scale long-tail driving data and richer reasoning annotations, enabling models trained on it to achieve significantly improved reasoning and planning performance.

Data Schema

Clip-based dataset: 20-second self-contained real-world driving clips.
Rich synchronized observations: multi-view camera, Lidar point cloud, ego state, HD map, and traffic signal context.
Reasoning annotations: spatial reasoning, decision reasoning, and counterfactual reasoning.

Reasoning Annotations

Results

Reasoning VQA Results

Models trained on nuReasoning significantly improve reasoning performance across all four core capabilities in driving tasks compared to both base models and other general-purpose models.

Planning Results

The nuVLA model outperforms state-of-the-art AV planning methods, while training with all reasoning types (spatial, driving, and counterfactual) yields the best overall planning performance.

Qualitative Results

BibTeX

@article{huang2026nureasoning, title = {nuReasoning: A Reasoning-Centric Dataset and Benchmark for Long-Tail Autonomous Driving}, author = {Huang, Zhiyu and Liu, Johnson and Song, Rui and Zhou, Zewei and Yang, Ruining and Zhang, Yun and Cai, Tianhui and Zhang, Hanyin and Gao, Mingxuan and Xu, Valeria and Chen, Jiali and Shen, Yishan and Guo, Yiluan and Qi, Tony Xuewei and Ma, Jiaqi}, journal = {arXiv preprint arXiv:2605.31572}, year = {2026}, url = {https://arxiv.org/abs/2605.31572} }

nuReasoning:
A Reasoning-Centric Dataset and Benchmark
for Long-Tail Autonomous Driving

Overview

Data Schema

Challenge

Reasoning Annotations

Benchmark

Reasoning VQA Benchmark

Planning Benchmark

Results

Reasoning VQA Results

Planning Results

Qualitative Results

BibTeX