
視覚変換器(Vision Transformer: ViT)はコンピュータビジョン分野において顕著な成果を収めてきたが、パッチ内情報の相互作用が不足し、特徴尺度の多様性が限られているため、密な予測タスク(dense prediction tasks)においては十分な性能を発揮できない。これまでの大多数の研究では、上記の課題を解決するために視覚特化型の変換器を設計するに留まり、追加の事前学習コストを伴うものが多い。そこで本研究では、事前学習を不要とし、シンプルかつ特徴を強化したViTのバックボーンとして、畳み込み型マルチスケール特徴相互作用を導入した「ViT-CoMer」を提案する。このアーキテクチャはCNNとTransformer間の双方向的相互作用を促進する。ViT-CoMerは最先端技術と比較して以下の3つの利点を持つ:(1)空間ピラミッドマルチ受容野畳み込み特徴をViTアーキテクチャに組み込むことで、ViTにおける局所情報の相互作用不足および特徴表現の単一性という課題を効果的に緩和する。(2)階層的特徴間におけるマルチスケール融合を実現する、シンプルかつ効率的なCNN-Transformer双方向融合相互作用モジュールを提案。これにより密な予測タスクへの対応がより効果的となる。(3)ViT-CoMerの性能を、さまざまな密な予測タスク、異なるフレームワーク、複数の先進的な事前学習手法を用いて評価した。特に、追加の学習データなしでCOCO val2017において64.3%のAP、ADE20K valにおいて62.1%のmIoUを達成し、いずれも最先端手法と同等の性能を示した。本研究の成果であるViT-CoMerが、今後の密な予測タスクにおける新たなバックボーンとして活用されることを期待している。コードはhttps://github.com/Traffic-X/ViT-CoMerにて公開予定である。