自己校正型クロスアテンションネットワークを用いたFew-Shotセグメンテーション

少数ショットセグメンテーション(FSS)の成功の鍵は、サポートサンプルをいかに効果的に活用するかにかかっている。多くの既存手法は、サポート画像の前景(FG)特徴をプロトタイプに圧縮するが、これにより空間的な詳細情報が損なわれる。一方、別のアプローチでは、クロスアテンションを用いてクエリ特徴と圧縮されていないサポートFG特徴を融合する。クエリのFGはサポートFGと融合可能であるが、クエリの背景(BG)はサポートFGに一致するBG特徴を特定できず、必然的に類似性の低い特徴を統合してしまう。さらに、クエリのFGとBGがともにサポートFGと結合されるため、両者が混同(エンタングル)し、結果として効果的なセグメンテーションが得られなくなるという問題が生じる。この課題に対処するため、本研究では自己調整型クロスアテンション(SCCA)ブロックを提案する。効率的なパッチベースのアテンションを実現するため、まずクエリ特徴とサポート特徴をパッチに分割する。その後、各クエリパッチが最も類似したサポートパッチと一致するよう、パッチアライメントモジュールを設計する。具体的には、SCCAはクエリパッチをQとし、同一クエリ画像からのパッチと、サポート画像からのアライメント済みパッチをKとVとして扱う。この構成により、クエリのBG特徴は対応するBG特徴(クエリパッチから得られる)と融合されるため、前述の問題が緩和される。さらに、SCCAの計算において、サポート特徴の類似性評価に適切に活用できるように、スケーリングコサインメカニズムを導入している。PASCAL-5^iおよびCOCO-20^iにおける広範な実験結果から、本モデルの優位性が実証された。特に、COCO-20^iにおける5ショット設定下でのmIoUスコアは、従来の最先端手法よりも5.6%以上優れている。実装コードは、https://github.com/Sam1224/SCCAN にて公開されている。