17日前

SegViT:シンプルなビジョンTransformerを用いたセマンティックセグメンテーション

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu
SegViT:シンプルなビジョンTransformerを用いたセマンティックセグメンテーション
要約

我々は、単純なVision Transformer(ViT)がセマンティックセグメンテーションに果たす可能性を検討し、SegVitを提案する。従来のViTベースのセグメンテーションネットワークは、通常、ViTの出力からピクセルレベルの表現を学習する。一方、本研究では、基本的な構成要素であるアテンション機構を活用し、セマンティックセグメンテーション用のマスクを生成するアプローチを採用する。具体的には、学習可能なクラストークンと空間特徴マップ間の類似度マップを用いてセグメンテーションマスクを生成する「Attention-to-Mask(ATM)モジュール」を提案する。実験の結果、ATMモジュールを用いた本研究のSegVitは、ADE20Kデータセットにおいて従来の単純なViTバックボーンを用いる手法を上回り、COCO-Stuff-10KおよびPASCAL-Contextデータセットでは新たなSOTA(state-of-the-art)性能を達成した。さらに、ViTバックボーンの計算コストを低減するために、クエリベースのダウンサンプリング(QD)およびクエリベースのアップサンプリング(QU)を提案し、縮小構造(Shrunk構造)を構築する。本研究で提案するShrunk構造を用いることで、計算量を最大40%削減しつつ、競争力のある性能を維持することが可能となる。

SegViT:シンプルなビジョンTransformerを用いたセマンティックセグメンテーション | 最新論文 | HyperAI超神経