11日前
GeoBEV:マルチビュー3Dオブジェクト検出のための幾何学的BEV表現学習
Jinqing Zhang, Yanan Zhang, Yunlong Qi, Zehua Fu, Qingjie Liu, Yunhong Wang

要約
鳥瞰視点(Bird’s-Eye-View, BEV)表現は、多視点3次元物体検出における主流的な枠組みとして浮上し、優れた知覚能力を示している。しかし、従来の手法はBEV表現の幾何学的品質を無視しており、低解像度の状態のままにされ、シーンの本質的な幾何情報の復元に失敗している。本論文では、BEV表現の幾何学的品質を制限する従来手法の欠点を特定し、高解像度で密なBEV表現を効率的に生成するための新しい特徴変換手法である「径向-直交BEVサンプリング(Radial-Cartesian BEV Sampling, RC-Sampling)」を提案する。本手法は、従来の方法を上回る性能を発揮し、細粒度の幾何情報の復元を可能にする。さらに、LiDAR点群から生成される従来の深度ラベルを代替する新しい「インボックスラベル(In-Box Label)」を設計した。このラベルは物体の表面のみを反映するのではなく、物体の実際の幾何構造を反映しており、BEV表現に現実世界の幾何情報を取り込むことを可能にする。このインボックスラベルと併用して、物体内部の幾何構造を捉えるための「重心認識型内部損失(Centroid-Aware Inner Loss, CAI Loss)」を提案する。最終的に、上記のモジュールを統合した新たな多視点3次元物体検出器「GeoBEV」を構築し、nuScenesテストセットにおいて66.2%のNDS(NuScenes Detection Score)という最先端の性能を達成した。コードは以下のURLから公開されている:https://github.com/mengtan00/GeoBEV.git。