
要約
現在の最先端のRGB-D顕著対象検出手法は、RGB-Dデータを扱う際に二重ストリームアーキテクチャを採用しており、深度データを処理する独立したサブネットワークが必要となる。これにより必然的に計算コストとメモリ消費が増加し、テスト時に深度データを使用する必要があるため、RGB-D顕著性検出の実用的応用を阻害する要因となっている。これらの課題に対処するため、本研究ではネットワーク予測とアテンションを二つの橋渡しとして用い、深度ストリームからRGBストリームへ深度知識を転送する「深度ディスティラー(A2dele)」を提案する。まず、深度ストリームとRGBストリームから生成される予測の間の差異を適応的に最小化することで、ピクセル単位での深度知識がRGBストリームに効果的に転送される制御を実現する。次に、局所化知識をRGB特徴に転送するため、深度ストリームの拡張予測とRGBストリームのアテンションマップの間に一貫性を促進する。その結果、テスト時に深度データを一切使用せずに、軽量なアーキテクチャを実現することができる。5つのベンチマークにおける広範な実験評価により、本手法のRGBストリームが最先端の性能を達成しており、最良の既存手法と比較してモデルサイズを76%大幅に削減し、処理速度は12倍向上することが明らかになった。さらに、A2deleは既存のRGB-Dネットワークに容易に統合可能であり、性能を維持しつつ大幅な効率向上を実現する(DMRAではFPSがほぼ2倍、CPFPでは3倍に向上)。