ピラミッド接ぎ木ネットワークを用いた一段階高解像度注目度検出

最近の深層ニューラルネットワークを基にした注目物体検出(SOD)手法は、著しい性能を達成しています。しかし、低解像度入力向けに設計された既存のSODモデルの多くは、サンプリング深度と受容野サイズの間の矛盾により、高解像度画像では性能が低下します。この矛盾を解決することを目指し、我々は新しい一段階フレームワークであるピラミッドグラフトネットワーク(Pyramid Grafting Network: PGNet)を提案します。このネットワークは、トランスフォーマーとCNNバックボーンを使用して異なる解像度の画像から特徴量を独立して抽出し、その後トランスフォーマー側からCNN側へ特徴量を移植します。また、注意に基づくクロスモデルグラフトモジュール(Cross-Model Grafting Module: CMGM)を提案し、デコーディング過程において異なるソース特徴量からのガイダンスによってCNN側がより全体的に詳細情報を組み合わせられるようにしました。さらに、CMGMによって生成される注意行列を明示的に監督するための注意ガイド損失(Attention Guided Loss: AGL)を設計しました。これによりネットワークは異なるモデルからの注意との相互作用をよりよく行うことができます。我々は新たな超高解像度注目領域検出データセットUHRSD(Ultra-High-Resolution Saliency Detection dataset)を提供します。このデータセットには4K-8K解像度の5,920枚の画像が含まれています。当該研究領域における知識に基づき、これは数量と解像度の両面で最大規模の高解像度SODタスク用データセットであり、今後の研究での学習やテストに利用できます。UHRSDおよび広く使用されているSODデータセットでの十分な実験結果により、我々の手法が最先端手法に比べて優れた性能を達成していることが示されています。