Few-Shot SegmentationのためのFeature-Proxy Transformer

少ショットセグメンテーション(FSS)は、少数のアノテーション付きサポートサンプルを用いて、未知のクラスに対するセマンティックセグメンテーションを実行することを目的としている。最近の進展を再検討した結果、現在のFSSフレームワークは教師ありセグメンテーションフレームワークから大きく逸脱していることが明らかになった。深層特徴量を入力とした場合、FSS手法は複雑なデコーダを用いて高度なピクセル単位のマッチングを実行するのに対し、教師ありセグメンテーション手法は単純な線形分類ヘッドを使用している。このデコーダおよびそのマッチングパイプラインの複雑さのため、従来のFSSフレームワークは実装や理解が困難である。本論文では、「特徴抽出器+線形分類ヘッド」というシンプルなフレームワークを復活させ、新たな特徴プロキシ変換器(FPTrans)を提案する。ここで「プロキシ」とは、線形分類ヘッドにおける意味的クラスを表すベクトルを指す。FPTransは、判別性の高い特徴と代表的なプロキシを学習するための2つのキーポイントを備えている。1)限られたサポートサンプルを効果的に活用するため、特徴抽出器が新しいクエリ(query)とサポート特徴量を、層の下位から上位へと段階的に相互作用させる独自のプロミング戦略を採用している。2)背景は均質ではなく、新たな前景領域を含む可能性があるため、単一の背景プロキシではなく、複数の局所的背景プロキシを用いる。これらの2つのキーポイントは、Transformerにおけるプロミング機構と組み合わせることで、視覚Transformerバックボーンに容易に統合可能である。学習された特徴量とプロキシに基づき、FPTransはそれらのコサイン類似度を直接比較してセグメンテーションを行う。このフレームワークはシンプルであるが、実験により、FPTransは従来のデコーダベース手法と同等の、あるいはそれ以上のFSS精度を達成できることを示した。