視覚変換器を用いたセマンティックセグメンテーションにおける表現分離

視覚変換器(Vision Transformers, ViTs)は、画像をパッチのシーケンスとして符号化するという新しいアプローチを提供し、意味的セグメンテーションにおいて新たなパラダイムをもたらしている。本研究では、ViTsを用いた意味的セグメンテーションに特化した、局所的パッチレベルとグローバル領域レベルにおける表現の分離を実現する効率的なフレームワークを提案する。このフレームワークは、ViTsが意味的セグメンテーションにおいて特有の過度な滑らかさ(over-smoothness)を示すという課題に焦点を当てており、現在一般的なコンテキストモデリングのアプローチや、注目機構(attention)の利点を強化する既存の多くの方策とは異なっている。まず、Transformerのグローバル表現と補完的な局所的パッチの差異を強化し、下位層に伝達する別途のパスを持つ、非結合型の二パスネットワークを導入する。さらに、空間的に適応的な分離モジュールを提案することで、より明確に分離された深層表現を獲得し、新規の補助教師信号を用いた判別性の高いクロスアテンションにより、より判別性の高い領域表現を生成する。本手法は以下の顕著な成果を達成している:1) 大規模なシンプルなViTsと組み合わせることで、5つの広く用いられているベンチマークにおいて、新たな最先端性能(SOTA)を達成;2) マスクされた事前学習済みシンプルViTsを用いることで、Pascal Contextにおいて68.9%のmIoUを達成し、新記録を樹立;3) 非結合型二パスネットワークと統合されたピラミッド型ViTsは、高解像度設計の優れたViTsを上回る性能をCityscapesで示した;4) 本フレームワークによって改善された表現は、自然なノイズや劣化を伴う画像においても優れた転移性を示した。実装コードは公開予定である。