
摘要
现代以视觉为中心的自动驾驶感知方法广泛采用了鸟瞰图(BEV)表示来描述三维场景。尽管其效率高于体素表示,但仅用一个平面难以精确描述场景的细粒度三维结构。为了解决这一问题,我们提出了一种三视角(TPV)表示,该表示在鸟瞰图的基础上增加了两个额外的垂直平面。我们通过将每个点在三个平面上的投影特征相加来建模三维空间中的每个点。为了将图像特征提升到三维TPV空间,我们进一步提出了一种基于Transformer的TPV编码器(TPVFormer),以有效获取TPV特征。我们利用注意力机制聚合每个查询在每个TPV平面对应的图像特征。实验表明,我们的模型在稀疏监督下能够有效地预测所有体素的语义占据情况。我们首次证明了仅使用相机输入即可在nuScenes数据集上的LiDAR分割任务中实现与基于LiDAR的方法相当的性能。代码:https://github.com/wzzheng/TPVFormer。