17日前

ビジョン・トランスフォーマー:画像分類における効率的なアテンション

Pranav Jeevan, Amit Sethi
ビジョン・トランスフォーマー:画像分類における効率的なアテンション
要約

トランスフォーマーは自然言語処理分野におけるニューラルアーキテクチャの主流となりつつあるが、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等の性能を発揮するためには、訓練データ量、GPUメモリ、計算量が桁違いに増加する必要がある。トランスフォーマーのアテンション機構は入力シーケンス長に対して二次的にスケーリングするため、展開された画像は長大なシーケンス長を持つことになり、大きな計算負荷を生じる。さらに、トランスフォーマーは画像に適したインダクティブバイアス(帰納的偏見)を欠いている。本研究では、これら課題を解決するためのVision Transformer(ViT)アーキテクチャの3つの改良を検証した。第一に、線形アテンション機構(X-formers:Performer、Linformer、Nyströmformerなど)を導入することで、二次的な計算ボトルネックを緩和し、Vision X-formers(ViXs)を構築した。これにより、GPUメモリ要件が最大7倍まで削減された。また、FNetや多層パーセプトロンミキサーと比較することで、さらにGPUメモリ消費を低減する効果が確認された。第二に、ViXにおいて初期の線形埋め込み層を畳み込み層に置き換えることで、画像に適したインダクティブバイアスを導入した。これにより、モデルサイズを増大させることなく分類精度が顕著に向上した。第三に、ViTにおける学習可能な1次元位置埋め込みをRotary Position Embedding(RoPE)に置き換えた。これにより、モデルサイズを維持したまま分類精度が向上した。これらの改良を統合することで、限られたデータ量および計算リソースを持つ研究者や開発者にとってもトランスフォーマーをよりアクセスしやすくする可能性があると考えられる。