7日前
ビジョン変換器アダプタによる高密度予測
Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao

要約
本研究では、ビジョントランスフォーマー(ViT)向けのシンプルでありながら強力な密集予測タスク用アダプタを提案する。近年の先進的な変種は、アーキテクチャ内に視覚特有のインダクティブバイアスを組み込んでいるが、シンプルなViTは弱い事前仮定により、密集予測タスクにおいて劣る性能を示す。この問題に対処するため、我々はViT-Adapterを提案する。このアプローチにより、シンプルなViTでも視覚特有のトランスフォーマーと同等の性能を達成可能となる。具体的には、本フレームワークのバックボーンとして、大規模なマルチモーダルデータから強力な表現を学習可能なシンプルなViTを採用する。下流タスクへの転移時には、事前学習を必要としないアダプタを用いて、画像関連のインダクティブバイアスをモデルに導入することで、タスクに適した構造を実現する。ViT-Adapterは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった複数の密集予測タスクにおいて検証された。特に、追加の検出データを使用せずに、COCO test-devにおいて60.9のボックスAPおよび53.0のマスクAPを達成し、最先端の性能を実現した。本研究が、視覚特化トランスフォーマーの代替手段として活用され、今後の研究を促進することを期待する。コードおよびモデルは、https://github.com/czczup/ViT-Adapter にて公開予定である。