
顕著対象検出(Salient Object Detection, SOD)における予測の整合性は、グローバルな文脈とローカルな文脈の両方によって大きく左右される。しかし、従来の手法は細部まで正確な完全な予測を生成する点で依然として課題を抱えている。従来のアプローチには二つの主要な問題がある。第一に、グローバル文脈の観点から見ると、高レベルのCNNベースのエンコーダ特徴量は長距離依存関係を効果的に捉えることができず、結果として予測が不完全になる。第二に、予測のサイズに合わせて正解ラベル(ground truth)をダウンサンプリングする際、補間やプーリングの過程で正解の詳細情報が失われることで、精度の低下が生じる。本研究では、これらの課題を解決するために、Transformerベースのネットワークを構築し、グローバル文脈情報を明示的に学習するための教師ありタスクを別途設計した。さらに、予測を正解のサイズに再構成する際に、従来の逆方向の処理ではなく、超解像(Super-Resolution, SR)で用いられるPixel Shuffleを採用した。これにより、正解の詳細情報が損なわれることなく保持される。また、グローバル文脈とローカル細部を自動的に検出し精緻化するため、二段階構造のコンテキスト精 refinement モジュール(Context Refinement Module, CRM)を提案した。提案手法は、生成されたグローバルおよびローカル文脈に基づいて自己指導と自己修正が可能であり、その特性から「自己精緻化Transformer(Self-Refined Transformer, SelfReformer)」と命名した。5つのベンチマークデータセットにおける広範な実験および評価結果から、本手法が優れた性能を発揮し、最先端の成果を達成したことが確認された。