6 个月前

摘要

鸟瞰图（Bird's-Eye-View, BEV）表示已成为多视角三维目标检测的主流范式，展现出卓越的感知能力。然而，现有方法普遍忽视了BEV表示的几何质量，导致其仍处于低分辨率状态，难以恢复场景的真实几何信息。本文识别出先前方法在限制BEV表示几何质量方面的关键缺陷，并提出径向-笛卡尔BEV采样（Radial-Cartesian BEV Sampling, RC-Sampling），该方法在高效生成高分辨率、稠密BEV表示方面显著优于其他特征变换策略，能够有效恢复细粒度的几何结构信息。此外，本文设计了一种新型“盒内标签”（In-Box Label），替代传统基于LiDAR点云生成的深度标签。该标签反映了物体真实的几何结构，而不仅仅是其表面信息，从而将真实世界的几何先验注入BEV表示中。结合In-Box Label，我们进一步提出中心感知内部损失（Centroid-Aware Inner Loss, CAI Loss），以捕捉物体内部的几何结构特征。最终，我们将上述模块整合为一种新型多视角三维目标检测框架，命名为GeoBEV，在nuScenes测试集上取得了66.2%的NDS（NuScenes Detection Score）性能，达到当前最优水平。相关代码已开源，地址为：https://github.com/mengtan00/GeoBEV.git。

源 PDF