15日前

SegFormer：Transformersを用いた語義セグメンテーションのためのシンプルで効率的な設計

Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo

要約

本稿では、軽量な多層感知機（MLP）デコーダーとTransformerを統合するシンプルかつ効率的でありながら強力なセマンティックセグメンテーションフレームワーク「SegFormer」を提案する。SegFormerの特徴は以下の2点である。1）SegFormerは、階層的に構造化された新しいTransformerエンコーダーを採用しており、マルチスケールの特徴量を出力する。このエンコーダーは位置エンコーディングを必要としないため、訓練時とテスト時の解像度が異なる場合に生じる位置コードの補間による性能低下を回避できる。2）SegFormerは複雑なデコーダーを回避している。提案するMLPデコーダーは、異なる層からの情報を集約することで、局所的な注目とグローバルな注目を統合し、強力な表現力を実現する。本研究では、このシンプルかつ軽量な設計がTransformerを用いた効率的なセグメンテーションの鍵であることを示す。本手法をスケーリングし、SegFormer-B0からSegFormer-B5までのシリーズモデルを構築した。これらのモデルは、従来の手法と比較して顕著な性能向上と効率性を達成している。例えば、SegFormer-B4はADE20Kデータセットにおいて64Mパラメータで50.3%のmIoUを達成し、従来の最良手法と比較して5倍小さく、2.2%高い性能を示す。本研究で得られた最良モデルであるSegFormer-B5は、Cityscapes検証セットで84.0%のmIoUを達成し、Cityscapes-Cにおける優れたゼロショットロバスト性も示している。コードは以下のURLで公開される：github.com/NVlabs/SegFormer。