SparseBEV:マルチカメラ動画からの高効率なスパース3Dオブジェクト検出

近年、ビューアー視点(Bird's Eye View, BEV)空間におけるカメラベースの3Dオブジェクト検出は大きな注目を集めている。従来の密な検出器(dense detectors)は、まず密なBEV特徴を構築し、その後BEV空間でオブジェクト検出を行う二段階パイプラインを採用しているが、この手法は複雑な視点変換と高い計算コストを伴うという課題がある。一方、スパース検出器(sparse detectors)は明示的な密なBEV特徴の構築を行わないクエリベースのアプローチを採用しているものの、密な検出器と比較して性能が劣る傾向にある。本論文では、この性能ギャップを是正する鍵は、BEV空間および画像空間の両方において検出器の適応性にあり、それを実現するために、完全にスパースな3Dオブジェクト検出器「SparseBEV」を提案する。SparseBEVは以下の3つの主要な設計を含む:(1)BEV空間における適応的受容 field を持つスケール適応型自己注意機構(scale-adaptive self attention)、(2)クエリに従って適応的な時空間サンプリング位置を生成する適応的時空間サンプリング(adaptive spatio-temporal sampling)、および(3)クエリから動的重みを取得してサンプリングされた特徴をデコードする適応的混合(adaptive mixing)。nuScenesデータセットのテストスプリットにおいて、SparseBEVは67.5 NDSという最先端の性能を達成した。バリデーションスプリットでは55.8 NDSの性能を維持しつつ、リアルタイムの推論速度(23.5 FPS)を実現した。コードは以下のGitHubリポジトリにて公開されている:https://github.com/MCG-NJU/SparseBEV。