SA-Det3D:自己注意に基づくコンテキスト認識型3Dオブジェクト検出

3次元オブジェクト検出に用いられる従来の点群ベースの検出器は、固定重みを持つカーネルを用いて局所近傍の情報を処理する畳み込み型演算子を活用し、階層的にグローバルな文脈を統合している。しかし、2次元ビジョンにおける非局所ニューラルネットワークや自己注意機構(self-attention)の研究から、長距離相互作用を明示的にモデル化することで、より堅牢かつ競争力のあるモデルが得られることが示されている。本論文では、畳み込み特徴に自己注意特徴を追加することで、3次元オブジェクト検出における文脈モデリングに向けた2つの自己注意機構のバリエーションを提案する。まず、現在の最先端技術であるBEV(Bird's Eye View)、ボクセル、およびポイントベースの検出器に、ペアワイズ自己注意機構を統合し、KITTI検証セットにおいて、強力なベースラインモデルに対して最大で1.5の3D AP(Average Precision)の向上を達成した。同時に、パラメータ数を15~80%、計算コストを30~50%削減する効果も確認した。次に、ランダムにサンプリングされた位置上での変形を学習することで、最も代表的な特徴のサブセットをサンプリングする自己注意機構の変種を提案する。このアプローチにより、大規模な点群に対する明示的なグローバル文脈モデリングのスケーラビリティが向上するだけでなく、より識別力が高く情報量豊かな特徴記述子の生成が可能となる。本手法は、多くの最先端検出器に柔軟に適用でき、精度の向上に加え、パラメータと計算効率の両面で優れた性能を発揮する。提案手法は、KITTI、nuScenes、Waymo Openの各データセットにおいて、3次元オブジェクト検出性能の向上を実証した。コードは以下のURLから公開されている:https://github.com/AutoVision-cloud/SA-Det3D。