
最近、RGB-D画像におけるサリエンシー検出に対する研究関心が高まっている。従来のモデルは、入力されたRGBデータと深度データ、またはそれらのサリエンシー地図を早期融合(early fusion)または結果融合(result fusion)の手法で統合していたが、これにより分布ギャップや情報損失の問題が生じていた。また、一部のモデルでは特徴融合(feature fusion)を採用しているが、線形な特徴融合手法に制限されていた。本論文では、両モダリティ(RGBと深度)で学習された注目度(attention)を融合する新たなアプローチを提案する。非局所モデル(Non-local model)のアイデアを踏まえ、自己注目度(self-attention)と他モダリティの注目度を統合することで、長距離の文脈依存性を効果的に伝播させ、多モーダル情報の統合をより正確に注目度の学習と文脈伝播に活かす。さらに、他モダリティの注目度の信頼性を考慮し、新たに追加される注目度項に重みを付けるための「選択注目度(selection attention)」を提案する。本研究では、提案された注目度モジュールを二重ストリームCNN(two-stream CNN)に組み込み、RGB-Dサリエンシー検出に応用している。また、深度側のデコーダ特徴をRGBストリームに統合するためのリジッド融合モジュール(residual fusion module)も提案している。7つのベンチマークデータセットにおける実験結果から、提案するモデル構成要素および最終的なサリエンシーモデルの有効性が実証された。本研究のコードと生成されたサリエンシー地図は、https://github.com/nnizhang/S2MA にて公開されている。