17日前

SegViT：シンプルなビジョンTransformerを用いたセマンティックセグメンテーション

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu

要約

我々は、単純なVision Transformer（ViT）がセマンティックセグメンテーションに果たす可能性を検討し、SegVitを提案する。従来のViTベースのセグメンテーションネットワークは、通常、ViTの出力からピクセルレベルの表現を学習する。一方、本研究では、基本的な構成要素であるアテンション機構を活用し、セマンティックセグメンテーション用のマスクを生成するアプローチを採用する。具体的には、学習可能なクラストークンと空間特徴マップ間の類似度マップを用いてセグメンテーションマスクを生成する「Attention-to-Mask（ATM）モジュール」を提案する。実験の結果、ATMモジュールを用いた本研究のSegVitは、ADE20Kデータセットにおいて従来の単純なViTバックボーンを用いる手法を上回り、COCO-Stuff-10KおよびPASCAL-Contextデータセットでは新たなSOTA（state-of-the-art）性能を達成した。さらに、ViTバックボーンの計算コストを低減するために、クエリベースのダウンサンプリング（QD）およびクエリベースのアップサンプリング（QU）を提案し、縮小構造（Shrunk構造）を構築する。本研究で提案するShrunk構造を用いることで、計算量を最大40%削減しつつ、競争力のある性能を維持することが可能となる。