17日前

Transformerを用いたシーケンスツーセクエンスの視点からセマンティックセグメンテーションを見直す

Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang
Transformerを用いたシーケンスツーセクエンスの視点からセマンティックセグメンテーションを見直す
要約

最近のセマンティックセグメンテーション手法は、エンコーダ・デコーダ構造を持つ完全畳み込みネットワーク(FCN)を採用している。エンコーダは空間解像度を段階的に低くし、受容 field を拡大することでより抽象的・意味的な視覚的概念を学習する。セグメンテーションにおいて文脈モデリングが極めて重要であるため、最新の研究は、拡張畳み込み(dilated/atrous convolution)やアテンションモジュールの導入により受容 field を拡大することに注力している。しかし、エンコーダ・デコーダ構造に基づくFCNアーキテクチャ自体は、これまで変化がなかった。本論文では、セマンティックセグメンテーションをシーケンス・トゥ・シーケンス予測タスクとして捉えるという代替的アプローチを提案する。具体的には、画像をパッチのシーケンスとして表現する、畳み込みや解像度低減を一切含まない純粋なトランスフォーマーをエンコーダとして用いる。トランスフォーマーの各層でグローバルな文脈をモデル化できるため、シンプルなデコーダと組み合わせることで、強力なセグメンテーションモデルであるSEgmentation TRansformer(SETR)を構築できる。広範な実験の結果、SETRはADE20K(mIoU 50.28%)、Pascal Context(mIoU 55.83%)において新たな最先端性能を達成し、Cityscapesにおいても競争力のある結果を示した。特に、提出日当日にADE20Kテストサーバーランキングで1位を獲得した。