
要約
深度画像に埋め込まれた空間的ヒントを活用することで、最近のRGB-Dサリエンシー検出技術は、いくつかの困難なシナリオにおいて顕著な性能を示している。しかし、依然として二つの限界が存在する。一方では、FCNにおけるプーリングおよびアップサンプリング操作が、物体の境界をぼかす可能性がある。他方では、深度特徴を抽出するために追加の深度ネットワークを用いることで、計算量およびメモリ使用量が増大するという問題がある。また、現在のRGB-Dモデルは推論時にも深度入力を必要とするため、実用的な応用に制限が生じている。本論文では、エッジ、深度、サリエンシーをより効率的に協調的に活用する新しい共同学習フレームワークを提案する。明示的に抽出されたエッジ情報は、サリエンシーと連携して、顕著領域および物体の境界により注目を向ける。さらに、深度学習とサリエンシー学習を、相互に恩恵をもたらす形で高レベル特徴の学習プロセスに統合する画期的なアプローチを採用している。この戦略により、ネットワークは追加の深度ネットワークや深度入力なしに推論を行うことが可能となり、モデルの軽量化、高速化、汎用性の向上を実現した。7つのベンチマークデータセットにおける実験結果から、本手法の優れた性能が確認された。