2ヶ月前

Evo-ViT: Slow-Fast トークン進化を用いた動的ビジョントランスフォーマー

Xu, Yifan ; Zhang, Zhijie ; Zhang, Mengdan ; Sheng, Kekai ; Li, Ke ; Dong, Weiming ; Zhang, Liqing ; Xu, Changsheng ; Sun, Xing
Evo-ViT: Slow-Fast トークン進化を用いた動的ビジョントランスフォーマー
要約

ビジョントランスフォーマー(ViTs)は最近急速な人気を博していますが、依然として巨大な計算コストが深刻な問題となっています。ビジョントランスフォーマーの計算複雑さは入力シーケンス長に比例して二次的に増大するため、計算量削減の主流となる手法はトークン数の削減です。既存の設計には、大規模な特徴マップの計算を削減するために段階的に縮小するピラミッドを使用する構造的な空間圧縮と、冗長なトークンを動的に除去する非構造的なトークンプルーニングがあります。しかし、既存のトークンプルーニングには以下の2つの制限があります:1) プルーニングによって引き起こされる不完全な空間構造は、現代の深くて狭いトランスフォーマーで一般的に使用される構造的な空間圧縮と互換性がありません;2) 通常、時間のかかる事前学習プロセスが必要です。これらの制限に対処し、トークンプルーニングの適用範囲を拡大するために、私たちはEvo-ViTという自己駆動型の遅速トークン進化アプローチを提案します。具体的には、ビジョントランスフォーマーに固有である単純かつ効果的なグローバルクラスアテンションを利用することで、非構造的なインスタンスごとのトークン選択を行います。次に、選択された情報量のあるトークンと情報量の少ないトークンを異なる計算パスで更新することを提案します。これを「遅速更新」と呼びます。遅速更新メカニズムは空間構造と情報フローを維持するため、Evo-ViTは訓練プロセスの最初からフラット構造や深くて狭い構造を持つ通常のトランスフォーマーを加速することができます。実験結果は、私たちの方法が画像分類における同等の性能を維持しながらビジョントランスフォーマーの計算コストを大幅に削減できることを示しています。

Evo-ViT: Slow-Fast トークン進化を用いた動的ビジョントランスフォーマー | 最新論文 | HyperAI超神経