CvT:Vision Transformers における畳み込みの導入

本稿では、畳み込みをVision Transformer(ViT)に導入することで、性能と効率の両面でViTを向上させる新たなアーキテクチャ「畳み込み型ビジョントランスフォーマー(Convolutional Vision Transformer: CvT)」を提案する。この目的を達成するために、以下の2つの主要な改良を実施している:(1) 新たな畳み込み型トークン埋め込みを含む階層構造のトランスフォーマー、(2) 畳み込み型プロジェクションを活用する畳み込み型トランスフォーマーブロック。これらの変更により、畳み込みニューラルネットワーク(CNN)が持つ望ましい特性(並進不変性、スケール不変性、歪み不変性)をViTアーキテクチャに導入しつつ、トランスフォーマーの利点(動的アテンション、グローバルな文脈理解、優れた一般化性能)を維持している。広範な実験を通じてCvTの有効性を検証した結果、ImageNet-1kデータセットにおいて、他のVision TransformerおよびResNetと比較して最先端の性能を達成し、パラメータ数とFLOPsを低減していることが示された。さらに、より大きなデータセット(例:ImageNet-22k)で事前学習を行い、下流タスクに微調整した場合にも、性能の向上が維持されることが確認された。ImageNet-22kで事前学習したCvT-W24は、ImageNet-1kの検証セットにおいてトップ1精度87.7%を達成した。最終的に、従来のVision Transformerに不可欠とされる位置エンコーディングが、本モデルでは安全に削除可能であることが示され、高解像度画像処理タスク向けの設計を簡素化する効果が得られた。コードは、\url{https://github.com/leoxiaobin/CvT}にて公開予定である。