17日前

シンプルなビジョンTransformerを用いた最小限で高性能なセマンティックセグメンテーション

Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan
シンプルなビジョンTransformerを用いた最小限で高性能なセマンティックセグメンテーション
要約

マスク画像モデリング(MIM)の発展を受けて、広大なデータセット上で大量に事前学習された、階層構造を持たないシンプルなビジョントランスフォーマー(ViT)モデルが多数登場し、セマンティックセグメンテーションにおける新たなパラダイムと大きな可能性を示している。現在の最先端システムは、多数のインダクティブバイアスを組み込み、複雑なデコーダーを用いている。一方で、シンプルさと汎用性を原点とするシンプルなViTの理念に立ち返り、その実現を目指して、高性能な「ミニマリズム」型システムの構築を検討する。本研究の主な目的は、シンプルで効率的なベースラインを、シンプルなViTを用いた実用的なセマンティックセグメンテーションに提供することにある。具体的には、最終特徴マップのみを用いて高性能なセマンティックセグメンテーションを達成する可能性とその手法について検証する。その結果、トランスフォーマーレイヤー(エンコーダまたはデコーダ)に加えて、3×3畳み込み層を3つだけ含むモデル「PlainSeg」を提案する。このプロセスを通じて、以下の2つの根本的な知見を提示する:(i) 簡単なアップサンプリング手法を用いても、高解像度の特徴量が高性能の実現に不可欠である;(ii) スリムなトランスフォーマーデコーダーは、ワイドなデコーダーに比べてはるかに大きな学習率を必要とする。この知見を基盤として、階層的特徴を活用可能な「PlainSeg-Hier」も提案する。4つの代表的なベンチマークにおける広範な実験により、本手法の高い性能と効率性が実証された。また、これらはベースモデルのセマンティックセグメンテーションへの転移能力を評価する強力なツールとしても利用可能である。コードは以下のURLから公開されている:\url{https://github.com/ydhongHIT/PlainSeg}。

シンプルなビジョンTransformerを用いた最小限で高性能なセマンティックセグメンテーション | 最新論文 | HyperAI超神経