11日前
PolarFormer:Polar Transformerを用いたマルチカメラ3Dオブジェクト検出
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang

要約
自動運転における3次元物体検出は、3次元空間における関心対象の「何が」存在するか、「どこに」存在するかを推論することを目的としている。従来の2次元物体検出のアプローチに従い、既存の手法は直交座標系(カーテシアン座標系)を用いることが一般的である。しかし、本研究では、このアプローチが自車(エゴカー)の視点の本質に適合していないと指摘する。各搭載カメラは、撮像幾何学に内在する楔状(radial、非直交軸)の視野をもって世界を捉えているためである。したがって、本論文では、極座標系(Polar coordinate system)の活用を提唱し、複数カメラの2次元画像を入力として、鳥瞰図(Bird's-Eye-View, BEV)におけるより正確な3次元物体検出を実現する新規モデル「PolarFormer」を提案する。具体的には、入力構造の形状に制約のない、クロスアテンションベースの極座標検出ヘッドを設計し、不規則な極座標グリッドに対応する。また、極座標系における距離方向における物体スケールの自由な変化に対処するため、マルチスケール極表現学習戦略を導入する。その結果、本モデルは、幾何学的制約のもとで、順序対順序(sequence-to-sequence)のアプローチにより、対応する画像観測に注目しながら、極座標表現をラスタライズ化し、最も効果的に活用することが可能となる。nuScenesデータセットを用いた包括的な実験により、PolarFormerが従来の最先端3次元物体検出手法を顕著に上回ることを実証した。