
RGB画像と深度画像における顕著対象検出(SOD)は、その効果性および現在では深度情報が容易に取得可能であるという点から、ますます注目を集めている。従来のRGB-D SODモデルは、RGBと深度の二つのモダリティから共通の表現を学ぶために異なる統合戦略を採用しているが、モダリティ固有の特徴をどのように保持すべきかを明示的に考慮する手法は少ない。本研究では、共通情報とモダリティ固有の特性(例:特異性)の両方を活用することでSOD性能を向上させる新しいフレームワーク、すなわち「SPNet(Specificity-preserving network)」を提案する。具体的には、個別的な特徴を抽出するための二つのモダリティ固有ネットワークと、共通表現を学習する共有学習ネットワークを導入し、それぞれ個別および共有の顕著性予測マップを生成する。共有学習ネットワークにおいて、異種モダリティ特徴を効果的に統合するため、クロス強化統合モジュール(CIM: Cross-enhanced Integration Module)を提案し、統合された特徴を次の層に伝搬して階層的特徴を統合する。さらに、SOD性能の向上を図るため、各個別デコーダから得られるモダリティ固有特徴を共有デコーダに統合するためのマルチモーダル特徴集約モジュール(MFA: Multi-modal Feature Aggregation)を提案する。また、エンコーダとデコーダ層間の階層的特徴を完全に結合するためにスキップ接続を用いる。広範な実験により、本手法(SPNet)が6つの代表的なRGB-D SODベンチマークおよび3つの camouflage object detection(擬態対象検出)ベンチマークにおいて最先端手法を上回ることが実証された。本研究のプロジェクトは、以下のURLで公開されている:https://github.com/taozh2017/SPNet。