Few-Shot セグメンテーションのための Dense Cross-Query-and-Support Attention Weighted Mask Aggregation

少数ショット意味分割(Few-shot Semantic Segmentation, FSS)に関する研究は、ターゲットクラスの注釈付きサポート画像がわずかに与えられた状況で、クエリ画像内のターゲットオブジェクトを分割するという目標をもって、近年大きな注目を集めている。この挑戦的なタスクの鍵は、クエリ画像とサポート画像の間の細粒度な相関関係を活用することで、サポート画像に含まれる情報を最大限に引き出すことにある。しかし、既存の多くのアプローチは、サポート情報の大部分をクラスごとの少数のプロトタイプに圧縮するか、ピクセルレベルで部分的なサポート情報(例えば、前景のみ)しか利用しないという問題があり、無視できない情報損失を引き起こしていた。本論文では、ペアリングされたクエリ特徴とサポート特徴の多段階ピクセル単位の相関関係を用いて、前景および背景の両方のサポート情報を完全に活用する、密なピクセル単位のクエリ・サポート間注意機構を用いたマスク集約手法(Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation, DCAMA) を提案する。DCAMAは、Transformerアーキテクチャにおけるスケーリングドット積注意機構を実装し、各クエリピクセルをトークンとして扱い、すべてのサポートピクセルとの類似度を計算した上で、その類似度に基づいて重み付けされたサポートピクセルのラベルの加算合成によって、各クエリピクセルの分割ラベルを予測する。DCAMAの独自の定式化に基づき、nショット分割における効率的かつ効果的な一回走査推論(one-pass inference)をさらに提案する。この手法では、すべてのサポート画像のピクセルを一度に集約してマスクアグリゲーションを実行する。実験の結果、PASCAL-5i、COCO-20i、FSS-1000という標準的なFSSベンチマークにおいて、DCAMAは既存の最良手法を大幅に上回り、特に1ショットでのmIoUにおいて、それぞれ3.1%、9.7%、3.6%の絶対的な向上を達成した。アブレーションスタディにより、DCAMAの設計の有効性も実証された。