
要約
本論文では、RGB-Dの注目物体検出に効率的かつコンパクトな深層ネットワークを開発することを目的としています。ここで、深度画像は複雑なシナリオにおける性能向上のために補完的な情報を提供します。多尺度残差ブロックによる粗い初期予測から始め、段階的にガイドされた交互精緻化ネットワークを提案してこれを洗練します。ImageNetで事前学習されたバックボーンネットワークを使用するのではなく、まずスクラッチから軽量な深度ストリームを構築します。これにより、冗長性が少なく効率的に補完的な特徴を抽出できます。次に、既存の融合ベースの手法とは異なり、RGBと深度の特徴量を提案するガイド付き残差(GR)ブロックに交互に入力することで、相互の劣化を減らします。各側出力内のスタックされたGRブロックに段階的なガイダンスを割り当てることで、誤検出や欠落部分が適切に修正されます。7つのベンチマークデータセットでの広範な実験により、当モデルが既存の最先端アプローチに対して大幅に優れていることが示されています。また、効率性(71 FPS)とモデルサイズ(64.9 MB)においても優れた性能を発揮しています。