
要約
従来のRGB-D显著物体検出方法は、深度情報を補完情報として活用し、両モダリティにおける显著な領域を見つけることを目指しています。しかし、显著物体検出の結果は、捕捉された深度データの品質に大きく依存しており、これらのデータが利用できない場合があります。本研究では、新しい深度認識フレームワークを用いてRGB-D显著物体検出問題を解く初めての試みを行いました。このフレームワークはテストフェーズではRGBデータのみに依存し、捕捉された深度データを表現学習の教師データとして利用します。我々のフレームワークを構築し、正確な显著検出結果を得るためには、RGB-D SODタスクにおける3つの重要な課題を解決するためのUbiquitous Target Awareness (UTA)ネットワークを提案しました。具体的には:1) 深度認識モジュールで深度情報を抽出し、適応的な深度誤差重みを使用して曖昧な領域を掘り下げる、2) 空間認識クロスモーダル相互作用とチャネル認識クロスレベル相互作用により、低レベル境界線手がかりを利用し、高レベル显著チャネルを強調する、3) ゲート付きマルチスケール予測モジュールで異なるコンテキストスケールでの物体显著性を認識する。提案したUTAネットワークは高性能であるだけでなく、推論時には深度情報に依存せず、43 FPSでリアルタイム動作します。実験結果は、提案したネットワークが5つの公開RGB-D SODベンチマークで大幅に最先端手法を上回り、さらに5つの公開RGB SODベンチマークでもその拡張性が確認されていることを示しています。