17日前

ピラミッド・ビジョン・トランスフォーマー:畳み込みを用いない高密度予測のための汎用的なバックボーン

Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao
ピラミッド・ビジョン・トランスフォーマー:畳み込みを用いない高密度予測のための汎用的なバックボーン
要約

コンボリューショナルニューラルネットワーク(CNN)をバックボーンとして用いることで、コンピュータビジョン分野では著しい成果が得られているが、本研究では畳み込みを用いない、多様な密度予測タスクに有用なシンプルなバックボーンネットワークの検討を行う。近年提案されたTransformerモデル(例:ViT)は画像分類を目的として特別に設計されているのに対し、本研究では、Transformerをさまざまな密度予測タスクに適用する際の課題を克服するため、ピラミッド型ビジョンTransformer(Pyramid Vision Transformer: PVT)を提案する。PVTは従来手法と比較して以下の利点を持つ。(1)ViTが通常、出力解像度が低く、計算量およびメモリ消費が大きいのに対し、PVTは画像の密な部分にわたって学習可能であり、密度予測において重要な高解像度出力を実現できる。また、大規模な特徴マップの計算量を削減するために、段階的に縮小するピラミッド構造を採用している。(2)PVTはCNNとTransformerの両方の利点を統合しており、単にCNNバックボーンを置き換えるだけで、畳み込みを用いない統一的なバックボーンとして、多様な視覚タスクに適用可能である。(3)広範な実験を通じてPVTの有効性を検証した結果、物体検出、セマンティックセグメンテーション、インスタンスセグメンテーションなどの多数の下流タスクにおいて性能向上を示した。例えば、パラメータ数がほぼ同等の場合、RetinaNet+PVTはCOCOデータセット上で40.4のAPを達成し、RetinaNet+ResNet50(36.3 AP)を4.1の絶対値で上回った。本研究が提示するPVTが、ピクセルレベルの予測における代替的かつ有用なバックボーンとして機能し、今後の研究を促進することを期待している。コードは https://github.com/whai362/PVT で公開されている。