16日前

プロトタイプをクエリとして用いたFew Shot Semantic Segmentation

Leilei Cao, Yibo Guo, Ye Yuan, Qiangguo Jin
プロトタイプをクエリとして用いたFew Shot Semantic Segmentation
要約

少数ショットセマンティックセグメンテーション(Few-shot Semantic Segmentation; FSS)は、クエリ画像に含まれる未観測クラスをセグメンテーションすることを目的としており、サポート画像としてわずかなラベル付き例を参照する。FSSの特徴の一つとして、クエリ画像とサポート画像の対象間における空間的な不一致(例えばテクスチャや外観の違い)が挙げられる。この不一致は、FSS手法の一般化能力に大きな課題をもたらす。すなわち、クエリ画像とサポート例の間の依存関係を効果的に活用する必要がある。既存の多くの手法は、サポート特徴をプロトタイプベクトルに抽象化し、クエリ特徴との相互作用をコサイン類似度や特徴の連結によって実現している。しかし、このような単純な相互作用では、クエリ特徴に含まれる空間的詳細を十分に捉えることができない。この制限を緩和するため、一部の手法はTransformerのアテンション機構を用いて、クエリ特徴とサポート特徴のペアワイズなピクセル単位の相関を計算することで、すべてのピクセルレベルのサポート情報を活用した。しかしながら、こうしたアプローチは、サポート特徴とクエリ特徴のすべてのピクセル間におけるドット積アテンションの計算負荷が非常に高くなるという問題を抱えている。本論文では、Transformerを基盤としたシンプルかつ効果的なフレームワークであるProtoFormerを提案する。この手法は、サポート特徴から抽出されたターゲットクラスのプロトタイプをQueryとして、クエリ特徴をKeyおよびValueの埋め込みとしてTransformerデコーダに入力することで、クエリ特徴内の空間的詳細をよりよく捉える。このアプローチにより、クエリ画像内のターゲットクラスの意味的特徴に焦点を当てることが可能となる。Transformerベースのモジュールの出力は、豊富なクエリ特徴からセグメンテーションマスクを抽出するための意味認識型の動的カーネルとして解釈できる。PASCAL-$5^{i}$およびCOCO-$20^{i}$における広範な実験により、本手法が従来の最先端手法を顕著に上回ることを示した。