HyperAIHyperAI

Command Palette

Search for a command to run...

SegViT:シンプルなビジョンTransformerを用いたセマンティックセグメンテーション

Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin Wei Chunhua Shen Yifan Liu

概要

我々は、単純なVision Transformer(ViT)がセマンティックセグメンテーションに果たす可能性を検討し、SegVitを提案する。従来のViTベースのセグメンテーションネットワークは、通常、ViTの出力からピクセルレベルの表現を学習する。一方、本研究では、基本的な構成要素であるアテンション機構を活用し、セマンティックセグメンテーション用のマスクを生成するアプローチを採用する。具体的には、学習可能なクラストークンと空間特徴マップ間の類似度マップを用いてセグメンテーションマスクを生成する「Attention-to-Mask(ATM)モジュール」を提案する。実験の結果、ATMモジュールを用いた本研究のSegVitは、ADE20Kデータセットにおいて従来の単純なViTバックボーンを用いる手法を上回り、COCO-Stuff-10KおよびPASCAL-Contextデータセットでは新たなSOTA(state-of-the-art)性能を達成した。さらに、ViTバックボーンの計算コストを低減するために、クエリベースのダウンサンプリング(QD)およびクエリベースのアップサンプリング(QU)を提案し、縮小構造(Shrunk構造)を構築する。本研究で提案するShrunk構造を用いることで、計算量を最大40%削減しつつ、競争力のある性能を維持することが可能となる。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています