
要約
Few-shotセマンティックセグメンテーションは、ターゲットクラスの注釈付きサポート画像をわずかに用いて、クエリ画像からターゲットオブジェクトをセグメンテーションする能力を学習することを目的としている。この課題は、多様なレベルの視覚的ヒントを理解し、クエリ画像とサポート画像間の細粒度な対応関係を分析する必要があるため、非常に困難である。本研究では、多レベル特徴相関と効率的な4次元畳み込みを活用する「Hypercorrelation Squeeze Networks(HSNet)」を提案する。HSNetは、中間畳み込み層の異なるレベルから多様な特徴を抽出し、4次元相関テンソル(すなわちハイパーコリレーション)の集合を構築する。ピラミッド型アーキテクチャにおいて効率的なセンター・ピボット4次元畳み込みを用いることで、ハイパーコリレーションの高レベルの意味情報と低レベルの幾何学的特徴を、粗いから細かい段階へと段階的に圧縮し、高精度なセグメンテーションマスクを生成する。PASCAL-5i、COCO-20i、FSS-1000という標準的なfew-shotセグメンテーションベンチマークにおける顕著な性能向上により、提案手法の有効性が実証された。