7日前

少量ショットセグメンテーションのための4次元畳み込みスウィン変換器を用いたコスト集約

Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim
少量ショットセグメンテーションのための4次元畳み込みスウィン変換器を用いたコスト集約
要約

本稿では、少サンプルセグメンテーション(few-shot segmentation)のための新たなコスト集約ネットワーク、すなわちボリュメトリックアグリゲーション with Transformers(VAT: Volumetric Aggregation with Transformers)を提案する。Transformerの使用により、グローバルな受容field上で自己注意(self-attention)を用いた相関マップの集約が可能となる。しかし、Transformer処理のために相関マップをトークン化する際には、トークン境界における不連続性が、トークン端部付近の局所的文脈を損なうとともに、誘導バイアス(inductive bias)を低下させるという問題が生じる。この課題に対処するため、本研究では4次元畳み込み型Swin Transformerを提案する。このアーキテクチャでは、高次元Swin Transformerの前に小キーネルの畳み込み層を複数配置し、すべてのピクセルに局所的文脈を付与するとともに、畳み込み特徴による誘導バイアスを導入する。さらに、ピラミッド構造内でTransformerを適用することで、粗いレベルでの集約が細かいレベルでの集約をガイドするようにし、集約性能を向上させる。その後のデコーダでは、クエリの外見埋め込み(appearance embedding)を活用して、Transformer出力に含まれるノイズを効果的にフィルタリングする。本モデルにより、少サンプルセグメンテーションにおけるすべての標準ベンチマークで、新たな最良の性能が達成された。また、コスト集約が中心的な役割を果たすセマンティック対応(semantic correspondence)においても、VATが最先端の性能を達成することが示された。

少量ショットセグメンテーションのための4次元畳み込みスウィン変換器を用いたコスト集約 | 最新論文 | HyperAI超神経