17日前

視覚向けの畳み込みXformers

Pranav Jeevan, Amit sethi
視覚向けの畳み込みXformers
要約

視覚変換器(Vision Transformers, ViTs)は、特定のベンチマークにおいて最先端の精度を達成しているものの、画像処理における実用的利用は限定的である。その主な理由は、自己注意機構(self-attention mechanism)の二次時間計算量に起因し、畳み込みニューラルネットワーク(CNNs)と比較してより大きな学習データセットおよびより多くの計算リソースを必要とする点にある。本研究では、これらの制約を克服するため、線形注意機構と畳み込みのハイブリッドアーキテクチャである「Convolutional X-formers for Vision(CXV)」を提案する。CXVでは、Performer、Nyströmformer、Linear Transformerなどの線形注意機構を用いて、従来の二次的注意機構の計算負荷を低減し、GPU使用量を削減する。また、画像データに対する誘導的事前知識(inductive prior)を畳み込みサブレイヤーによって提供することで、ViTsで用いられるクラストークン(class token)および位置埋め込み(positional embeddings)の導入を不要にしている。さらに、学習の異なる段階で異なる最適化手法を用いる新たな訓練手法を提案し、様々なアーキテクチャにおいてトップ-1画像分類精度の向上を実証した。実験結果から、データ量やGPUリソース(コア数、RAM、電力)が制限される環境において、CXVは他のアーキテクチャ、すなわちトークンミキサー(例:ConvMixer、FNet、MLP Mixer)、変換器モデル(例:ViT、CCT、CvT、ハイブリッドXformers)、およびResNetを上回る性能を発揮することが示された。