15日前
CenterFormer:3Dオブジェクト検出を 위한センター基準Transformer
Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh

要約
クエリベースのTransformerは、多くの画像分野のタスクにおいて長距離注意力を構築する上で大きな可能性を示しているが、点群データの規模が非常に大きいことから、LiDARを用いた3次元物体検出においてはほとんど検討されてこなかった。本論文では、3次元物体検出を目的としたセンターに基づくTransformerネットワーク「CenterFormer」を提案する。CenterFormerは、標準的なボクセルベースの点群エンコーダの上に、センター熱マップを用いてセンター候補を抽出する。その後、これらのセンター候補の特徴量をTransformerにおけるクエリ埋め込みとして利用する。さらに、複数フレームからの特徴を統合するため、クロスアテンションを用いた特徴融合手法を設計した。最後に、出力されたセンター特徴表現に対してバウンディングボックスを予測する回帰ヘッドを追加する。本手法の設計により、Transformer構造の収束困難さと計算量の複雑さが低減された。実験結果から、アノンフリー物体検出ネットワークの強力なベースラインに対して顕著な性能向上が得られた。CenterFormerは、Waymo Open Datasetにおいて単一モデルとして最先端の性能を達成し、検証セットで73.7%のmAPH、テストセットで75.6%のmAPHを記録した。これは、これまでに発表されたすべてのCNNおよびTransformerベースの手法を大きく上回るものである。本研究のコードは、https://github.com/TuSimple/centerformer にて公開されている。