17日前

視覚的Transformerに畳み込み設計を統合する

Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu
視覚的Transformerに畳み込み設計を統合する
要約

自然言語処理(NLP)タスクにおけるTransformerの成功を受けて、ViTやDeiTなど、Transformerを視覚領域に応用しようとする試みが複数報告されている。しかし、純粋なTransformerアーキテクチャは、畳み込みニューラルネットワーク(CNN)と同等の性能を達成するためには、大規模な学習データや追加の教師情報(extra supervision)を必要とする傾向がある。この課題を克服するため、本研究では、NLPから直接Transformerアーキテクチャを視覚タスクに適用する際の潜在的な欠点を分析した。その上で、低次特徴の抽出能力、局所性の強化というCNNの利点と、長距離依存関係の把握というTransformerの利点を統合する新しい畳み込み強化型画像Transformer(Convolution-enhanced image Transformer, CeiT)を提案する。本研究では、元のTransformerアーキテクチャに対して以下の3つの改良を実施している。1) データの直接的なトークン化ではなく、生成された低次特徴からパッチを抽出する画像→トークン変換モジュール(Image-to-Tokens, I2T)を導入することで、より意味のある初期特徴を取得する。2) 各エンコーダブロック内のフィードフォワードネットワークを、空間次元における隣接トークン間の相関を促進する局所強化型フィードフォワード層(Locally-enhanced Feed-Forward, LeFF)に置き換え、局所的な構造情報をより効果的に捉える。3) Transformerの上部に階層的クラストークンアテンション(Layer-wise Class token Attention, LCA)を追加し、多段階の特徴表現を活用することで、より豊かな高次特徴を獲得する。ImageNetおよび7つの下流タスクにおける実験結果から、CeiTが従来のTransformerおよび最先端のCNNと比較して、優れた有効性と汎化能力を示すことが確認された。特に、大規模な学習データやCNN教師モデルを必要としない点が特徴的である。さらに、CeiTモデルは学習反復回数を3倍削減しても良好な収束を示し、学習コストの大幅な削減が可能であることが明らかになった。\footnote{コードおよびモデルは採択後公開予定。}

視覚的Transformerに畳み込み設計を統合する | 最新論文 | HyperAI超神経