3ヶ月前
3D畳み込みニューラルネットワークを用いたRGB-D顕著オブジェクト検出
Qian Chen, Ze Liu, Yi Zhang, Keren Fu, Qijun Zhao, Hongwei Du

要約
RGB-D顕著オブジェクト検出(SOD)は近年、ますます注目を集め、エンコーダ・デコーダアーキテクチャに基づく多くの深層学習手法が登場している。しかし、既存の大多数のRGB-D SODモデルは、特徴の融合をエンコーダ段階またはデコーダ段階のいずれか一方で行っているため、十分なクロスモーダル融合能力を保証できていない。本論文では、RGB-D SODに対して3次元畳み込みニューラルネットワークを用いる初めての試みを行う。提案手法はRD3Dと命名され、エンコーダ段階での事前融合とデコーダ段階での深層融合を実現することで、RGBと深度情報の流れの完全な統合を効果的に促進することを目的としている。具体的には、RD3Dは膨張型3次元エンコーダを用いてRGBと深度モダリティ間の事前融合を実施し、その後、豊富な逆投影パス(RBPP)を備えた3次元デコーダを設計することで、3次元畳み込みの広範な集約能力を活用した深層特徴融合を実現する。このエンコーダとデコーダの両段階にわたる段階的融合戦略により、2つのモダリティ間の効果的かつ徹底的な相互作用が可能となり、検出精度の向上が図られる。6つの広く用いられているベンチマークデータセットにおける広範な実験結果から、RD3Dは4つの主要評価指標において、14の最先端RGB-D SOD手法と比較しても優れた性能を示した。本研究のコードは公開予定であり、以下のURLから入手可能となる:https://github.com/PPOLYpubki/RD3D。