8ヶ月前

概要

本論文では、エンコーダー-デコーダーフレームワークを使用してセマンティックセグメンテーションを行うためのシンプルなビジョントランスフォーマー（ViT）の能力を調査し、SegViTv2 を提案します。本研究では、シンプルなViTに効果的な軽量デコーダーを設計するために、新しいアテンション・ツー・マスク（\atm）モジュールを導入しました。提案されたATMは、グローバルアテンションマップを高品質なセグメンテーション結果を得るためのセマンティックマスクに変換します。当社のデコーダーは、さまざまなViTバックボーンを使用する場合でも、人気のあるデコーダーUPerNetを上回りながら、計算コストは約5%しかかかりません。エンコーダーに関しては、ViTベースのエンコーダーにおける比較的高い計算コストという問題に対処し、エッジ認識クエリベースダウンサンプリング（EQD）とクエリベースアップサンプリング（QU）モジュールを取り入れた \emph{Shrunk++} 構造を提案しました。Shrunk++構造は、競争力のある性能を維持しながら、エンコーダーの計算コストを最大50%削減します。さらに、SegViTを継続的なセマンティックセグメンテーションに適応させることで、以前に学習した知識のほぼゼロの忘却を示しています。実験結果から、提案したSegViTv2がADE20K, COCO-Stuff-10K, PASCAL-Contextデータセットを含む3つの主要ベンチマークにおいて最近のセグメンテーション手法を超えることが示されました。コードは以下のリンクから入手可能です: \url{https://github.com/zbwxp/SegVit}。

ソースPDF コードを表示