HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptive Sparse ViT: 自注意を完全に活用した学習可能な適応的なトークンプルーニングの実現

Xiangcheng Liu extsuperscript1,*† Tianyi Wu extsuperscript2,* Guodong Guo extsuperscript3‡

概要

ビジョントランスフォーマーは、コンピュータビジョンの新しいパラダイムとして登場し、優れた性能を示しながらも高価な計算コストを伴っています。画像トークンプルーニングは、ViT(Vision Transformer)の圧縮手法の一つとして注目されています。これは、複雑さがトークン数の2乗に比例するため、そして多くの背景領域だけを含むトークンが最終的な予測に真正に貢献しないという事実に基づいています。既存の研究では、個々のトークンの重要度を評価するために追加モジュールに依存するか、異なる入力インスタンスに対して固定比率のプルーニング戦略を実装しています。本研究では、最小限のコストで適応的な疎なトークンプルーニングフレームワークを提案します。具体的には、まず安価なアテンションヘッド重要度重み付けクラスアテンションスコアリングメカニズムを提案します。次に、学習可能なパラメータを閾値として挿入し、有用なトークンと不重要なトークンを区別します。トークンアテンションスコアと閾値を比較することで、無駄なトークンを階層的に除去し、推論速度を向上させることができます。学習可能な閾値は、精度と複雑さのバランスを取りながら予算に配慮した訓練で最適化され、異なる入力インスタンスに対応するプルーニング設定を行います。多数の実験結果から、当手法の有効性が示されています。当手法はDeiT-S(Data-efficient Image Transformers - Small)のスループットを50%向上させつつ、トップ-1精度での低下はわずか0.2%であり、従来の手法よりも精度と遅延時間とのトレードオフが優れています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています