2 个月前
TBP-Former:学习用于视觉中心自动驾驶的时序鸟瞰图金字塔联合感知与预测
Fang, Shaoheng ; Wang, Zi ; Zhong, Yiqi ; Ge, Junhao ; Chen, Siheng ; Wang, Yanfeng

摘要
以视觉为中心的联合感知与预测(PnP)已成为自动驾驶研究中的新兴趋势。该方法从原始RGB图像中预测周围环境中交通参与者未来的状态。然而,由于不可避免的几何畸变,多视角和多时间戳获取的特征同步仍然是一个关键挑战,进一步利用这些时空特征也颇具难度。为了解决这一问题,我们提出了一种用于以视觉为中心的PnP的时间鸟瞰图金字塔变换器(TBP-Former),其中包括两项创新设计。首先,提出了一种姿态同步的鸟瞰图编码器,可以将任何时间点、任何相机姿态下的原始图像输入映射到共享且同步的鸟瞰图空间,从而实现更好的时空同步。其次,引入了一种时空金字塔变换器,全面提取多尺度鸟瞰图特征,并在时空先验的支持下预测未来的鸟瞰图状态。在nuScenes数据集上的大量实验表明,我们提出的框架总体上优于所有现有的基于视觉的预测方法。