2ヶ月前

ビジョントランスフォーマーにおける疎性の追求:エンドツーエンドの探求

Chen, Tianlong ; Cheng, Yu ; Gan, Zhe ; Yuan, Lu ; Zhang, Lei ; Wang, Zhangyang
ビジョントランスフォーマーにおける疎性の追求:エンドツーエンドの探求
要約

ビジョントランスフォーマー(ViTs)は最近爆発的な人気を博していますが、その巨大なモデルサイズと訓練コストは依然として大きな課題となっています。従来の訓練後のプルーニング方法はしばしばより高い訓練予算を必要とします。対照的に、本論文では、達成可能な精度を犠牲にすることなく、訓練時のメモリオーバーヘッドと推論の複雑さを削減することを目指しています。具体的には、フルのViTsを訓練する代わりに、固定された小さなパラメータ予算で動的に疎なサブネットワークを抽出し、訓練します。当手法はモデルパラメータの最適化と接続性の探索を訓練全体を通して同時に行い、最終的には一つの疎なネットワークを出力します。この手法は非構造的疎性から構造的疎性へとシームレスに拡張され、後者はViTs内の自己注意ヘッドのプルーニングと成長(prune-and-grow)をガイドすることにより実現されます。さらに、新しい学習可能なトークンセレクタを使用して現在最も重要なパッチを選択することで、データとアーキテクチャの疎性を共同で探索し、効率性向上を目指しました。ImageNetにおける多様なViTバックボーンを使用した広範な実験結果が当提案手法の有効性を検証しており、計算コストが大幅に削減されるとともに一般化性能がほとんど損なわれないことを示しています。特に驚くべきことに、提案された疎な(共)訓練方法は精度を低下させるだけでなく、場合によってはViTの精度を向上させることもできました。これは疎性が魅力的な「無料の昼食」であることを示唆しています。例えば、データ(5%)、アーキテクチャ(50%)でのスパーシファイドDeiT-Smallはトップ-1精度が0.28%向上し、同時に49.32%のFLOPs削減と4.40%の実行時間短縮が得られました。当研究コードは https://github.com/VITA-Group/SViTE で公開されています。

ビジョントランスフォーマーにおける疎性の追求:エンドツーエンドの探求 | 最新論文 | HyperAI超神経