17日前
VPNeXt ― プレーンなビジョンTransformerにおける密なデコードの再考
Xikai Tang, Ye Huang, Guangqiang Yin, Lixin Duan

要約
我々は、プレーンビジョン変換器(Plain Vision Transformer: ViT)向けに新たなシンプルなモデルであるVPNeXtを提案する。これまでの多数の関連研究が同一の均質な枠組みに従っている中で、VPNeXtはViTに基づく密な表現に関する新たな視点を提供する。具体的には、従来のアーキテクチャに関する2つの課題に着目している:(1)優れた表現を得るために、複雑なTransformerマスクデコーダアーキテクチャを用いる必要があるのか?(2)プレーンViTは、アップサンプリングのために仮想的なピラミッド特徴量に依存する必要があるのか?(1)に関しては、Transformerデコーダの有効性に寄与する潜在的な要因を調査し、視覚的コンテキストリプレイ(Visual Context Replay: VCR)を導入することで、類似の効果を効率的に達成した。(2)に関しては、ViTUpモジュールを提案した。このモジュールは、これまで軽視されてきたViTの実際のピラミッド特徴量を完全に活用し、従来の仮想ピラミッド特徴量よりも優れたアップサンプリング結果を実現した。これは、プレーンViTを用いたセマンティックセグメンテーション分野において、初めてこのような機能を実現した例である。関連モジュールの有効性を段階的に検証するためのアブレーションスタディを実施し、関連する比較実験および可視化を用いて、VPNeXtがシンプルかつ効果的な設計により最先端の性能を達成していることを示した。さらに、提案したVPNeXtは、長年にわたり維持されてきたVOC2012データセットにおけるmIoUの壁(障壁)を大幅に突破し、2015年以来最大の改善を達成し、新たな最先端水準を確立した。