4ヶ月前

AdaViT: 適応的なトークンによる効率的なビジョントランスフォーマー

Yin, Hongxu ; Vahdat, Arash ; Alvarez, Jose ; Mallya, Arun ; Kautz, Jan ; Molchanov, Pavlo

要約

私たちはA-ViT（Adaptive Vision Transformer）を紹介します。これは、異なる複雑さを持つ画像の推論コストを適応的に調整する方法です。A-ViTは、推論が進むにつれてネットワーク内で処理されるトークン数を自動的に削減することで、この目標を達成します。私たちはこのタスクのためにAdaptive Computation Time (ACT)を再定式化し、停止条件を拡張して冗長な空間トークンを破棄します。ビジョントランスフォーマーの魅力的なアーキテクチャ特性により、私たちの適応的なトークン削減メカニズムはネットワークアーキテクチャや推論ハードウェアを変更することなく推論速度を向上させることができます。さらに、A-ViTは停止判定に追加のパラメータやサブネットワークを必要とせず、適応的な停止学習は元のネットワークパラメータに基づいて行われます。私たちは分布先验正則化（distributional prior regularization）も導入しており、これにより従来のACT手法よりも訓練が安定します。画像分類タスク（ImageNet1K）において、提案したA-ViTが情報量のある空間特徴を選別し、全体的な計算量を削減する高い効果性を示しています。提案手法はDeiT-Tinyのスループットを62%向上させ、DeiT-Smallでは38%向上させつつ精度低下は0.3%に抑えられることから、従来技術に対して大幅に優れた性能を発揮しています。プロジェクトページ: https://a-vit.github.io/