17 天前

BAEFormer:用于鸟瞰图语义分割的双向与早期交互Transformer

{Zhaoxiang Zhang, Wei Sui, Qian Zhang, Junran Peng, Yonghao He, Cong Pan}
BAEFormer:用于鸟瞰图语义分割的双向与早期交互Transformer
摘要

鸟瞰图(Bird's Eye View, BEV)语义分割是自动驾驶领域的一项关键任务。然而,现有的基于Transformer的方法在将透视视图(Perspective View, PV)转换为BEV时面临挑战,主要原因在于其单向且后置的交互机制。为解决这一问题,本文提出一种新型的双向早期交互Transformer框架——BAEFormer,该框架包含两个核心组件:(i)早期交互的PV-BEV转换流程,以及(ii)双向交叉注意力机制。此外,我们发现交叉注意力模块中图像特征图的分辨率对最终性能影响有限。基于这一关键观察,我们提出增大输入图像尺寸,并对多视角图像特征进行下采样以实现跨视角交互,从而在保持计算量可控的前提下进一步提升分割精度。所提出的BEV语义分割方法在nuScenes数据集上实现了实时推理速度下的最先进性能,即在单张A100 GPU上达到45帧/秒(FPS)的推理速度,同时获得38.9%的mIoU(平均交并比)。