4ヶ月前
SegViTv2: 平坦なビジョントランスフォーマーを用いた効率的かつ継続的なセマンティックセグメンテーションの探求
Zhang, Bowen ; Liu, Liyang ; Phan, Minh Hieu ; Tian, Zhi ; Shen, Chunhua ; Liu, Yifan

要約
本論文では、エンコーダー-デコーダーフレームワークを使用してセマンティックセグメンテーションを行うためのシンプルなビジョントランスフォーマー(ViT)の能力を調査し、SegViTv2 を提案します。本研究では、シンプルなViTに効果的な軽量デコーダーを設計するために、新しいアテンション・ツー・マスク(\atm)モジュールを導入しました。提案されたATMは、グローバルアテンションマップを高品質なセグメンテーション結果を得るためのセマンティックマスクに変換します。当社のデコーダーは、さまざまなViTバックボーンを使用する場合でも、人気のあるデコーダーUPerNetを上回りながら、計算コストは約5%しかかかりません。エンコーダーに関しては、ViTベースのエンコーダーにおける比較的高い計算コストという問題に対処し、エッジ認識クエリベースダウンサンプリング(EQD)とクエリベースアップサンプリング(QU)モジュールを取り入れた \emph{Shrunk++} 構造を提案しました。Shrunk++構造は、競争力のある性能を維持しながら、エンコーダーの計算コストを最大50%削減します。さらに、SegViTを継続的なセマンティックセグメンテーションに適応させることで、以前に学習した知識のほぼゼロの忘却を示しています。実験結果から、提案したSegViTv2がADE20K, COCO-Stuff-10K, PASCAL-Contextデータセットを含む3つの主要ベンチマークにおいて最近のセグメンテーション手法を超えることが示されました。コードは以下のリンクから入手可能です: \url{https://github.com/zbwxp/SegVit}。