16日前
ロバストかつリアルタイムなRGB-D顕著オブジェクト検出のための単一ストリームネットワーク
Xiaoqi Zhao, Lihe Zhang, Youwei Pang, Huchuan Lu, Lei Zhang

要約
従来のRGB-D顕著オブジェクト検出(SOD)手法は、RGBチャネルと深度チャネル間のクロスモーダル融合に注力しているが、深度マップ自体の効果については深く探求されていない。本研究では、深度マップを直接用いてRGBと深度の早期融合および中間融合をガイドする単一ストリームネットワークを設計した。これにより、深度チャネル用の特徴エンコーダを不要とし、軽量かつリアルタイム処理が可能なモデルを実現した。我々は深度情報の利活用を二つの観点から巧みに設計した。(1)モダリティ間の大きな差異によって生じる不整合問題を克服するため、単一ストリームエンコーダを構築し、早期融合を実現。これにより、ImageNetで事前学習されたバックボーンモデルを活用し、豊富で判別力の高い特徴を効果的に抽出できる。(2)新規の深度強化型デュアルアテンションモジュール(DEDA)を設計し、前景・背景分岐に対して空間的にフィルタリングされた特徴を効率的に提供。これにより、デコーダが最適な中間融合を実行可能となる。さらに、異なるスケールのオブジェクトを高精度で局在化するため、ピラミダルアテンション特徴抽出モジュール(PAFE)を提案した。広範な実験により、提案モデルは複数の評価指標において、大多数の最先端手法と比較して優れた性能を示した。さらに、現在最も軽量なモデルと比較して55.5%軽量化され、384×384の画像を処理する際には32FPSのリアルタイム速度で動作することが確認された。