2ヶ月前

Adaptive Sparse ViT: 自注意を完全に活用した学習可能な適応的なトークンプルーニングの実現

Liu, Xiangcheng ; Wu, Tianyi ; Guo, Guodong
Adaptive Sparse ViT: 自注意を完全に活用した学習可能な適応的なトークンプルーニングの実現
要約

ビジョントランスフォーマーは、コンピュータビジョンの新しいパラダイムとして登場し、優れた性能を示しながらも高価な計算コストを伴っています。画像トークンプルーニングは、ViT(Vision Transformer)の圧縮手法の一つとして注目されています。これは、複雑さがトークン数の2乗に比例するため、そして多くの背景領域だけを含むトークンが最終的な予測に真正に貢献しないという事実に基づいています。既存の研究では、個々のトークンの重要度を評価するために追加モジュールに依存するか、異なる入力インスタンスに対して固定比率のプルーニング戦略を実装しています。本研究では、最小限のコストで適応的な疎なトークンプルーニングフレームワークを提案します。具体的には、まず安価なアテンションヘッド重要度重み付けクラスアテンションスコアリングメカニズムを提案します。次に、学習可能なパラメータを閾値として挿入し、有用なトークンと不重要なトークンを区別します。トークンアテンションスコアと閾値を比較することで、無駄なトークンを階層的に除去し、推論速度を向上させることができます。学習可能な閾値は、精度と複雑さのバランスを取りながら予算に配慮した訓練で最適化され、異なる入力インスタンスに対応するプルーニング設定を行います。多数の実験結果から、当手法の有効性が示されています。当手法はDeiT-S(Data-efficient Image Transformers - Small)のスループットを50%向上させつつ、トップ-1精度での低下はわずか0.2%であり、従来の手法よりも精度と遅延時間とのトレードオフが優れています。

Adaptive Sparse ViT: 自注意を完全に活用した学習可能な適応的なトークンプルーニングの実現 | 最新論文 | HyperAI超神経