ConViT:ソフト畳み込み誘導バイアスによるVision Transformerの性能向上

畳み込みアーキテクチャは、視覚タスクにおいて極めて成功を収めてきた。その強固な誘導的バイアス(inductive bias)により、少量のデータでも効率的な学習が可能となる一方で、性能の上限がやや低くなる可能性がある。一方、視覚Transformer(ViT)はより柔軟な自己注意(self-attention)層に依拠しており、近年の画像分類タスクにおいて畳み込みニューラルネットワーク(CNN)を上回る性能を示している。しかし、ViTは大規模な外部データセットに対する高コストな事前学習、あるいは既存の畳み込みネットワークからの蒸留(distillation)を必要とするという課題を抱えている。本論文では、以下の問いを提示する:これらの2つのアーキテクチャの長所を統合しつつ、それぞれの欠点を回避することは可能だろうか?この目的のため、我々は「ゲート付き位置自己注意(gated positional self-attention, GPSA)」を導入する。これは、位置情報に基づく自己注意の一種であり、「ソフトな」畳み込み的誘導的バイアスを内蔵できる構造である。GPSA層を畳み込み層の局所性(locality)を模倣するように初期化し、各自己注意ヘッドがゲートパラメータを調整することにより、位置情報とコンテンツ情報に対する注目度のバランスを自由に変化させ、局所性から脱却する自由を与える。このようにして得られた畳み込み的な特徴を持つTransformerアーキテクチャ、ConViTは、ImageNetにおいてDeiTを上回る性能を発揮するとともに、大幅に改善されたデータ効率性を実現した。さらに、我々は局所性が学習プロセスに果たす役割を検証するため、まず通常の自己注意層において局所性がどのように促進されるかを定量的に分析し、次にGPSA層における局所性の脱却メカニズムを解析した。最後に、ConViTの成功要因をより深く理解するために、さまざまなアブレーション(消去実験)を提示する。本研究のコードおよびモデルは、https://github.com/facebookresearch/convit にて公開されている。