
要約
RGB-D顕著対象検出におけるマルチモーダル補完性を十分に活用する方法は、その根幹的な課題である。従来の手法は、主にマルチモーダル特徴を単純に連結するか、単モーダル予測を組み合わせる方法によってこの問題に取り組んできた。本論文では、この問題に対して二つの視点からアプローチする。第一に、補完的な情報部分をより明示的にモデル化できるならば、マルチモーダル補完性をより適切に捉えることができるだろうという主張を行う。これを実現するために、畳み込みニューラルネットワーク(CNN)を採用した際の新しい補完性認識型融合(Complementarity-Aware Fusion, CA-Fuse)モジュールを提案する。各CA-Fuseモジュールにおいて、マルチモーダル残差関数と補完性認識型の教師信号を導入することで、ペアモーダルからの補完情報の学習問題を、漸近的に残差関数に近づけることとして明示的に定式化する。第二に、すべてのレベルにわたる補完性の探索を実現する。CA-Fuseモジュールを連鎖的に配置し、深層から浅層へと段階的にレベルごとの教師信号を追加することで、階層間の補完性を段階的に選択・統合することが可能となる。提案するRGB-D融合ネットワークは、マルチモーダル間および階層間の融合プロセスを明確に分離し、より十分な融合結果を実現する。公開データセットにおける実験結果から、提案するCA-FuseモジュールおよびRGB-D顕著対象検出ネットワークの有効性が確認された。