2ヶ月前
DynamicViT: 効率的なビジョントランスフォーマーと動的トークンスパルシフィケーション
Rao, Yongming ; Zhao, Wenliang ; Liu, Benlin ; Lu, Jiwen ; Zhou, Jie ; Hsieh, Cho-Jui

要約
視覚トランスフォーマーにおける注意は疎である。私たちは、視覚トランスフォーマーの最終予測が最も情報量の多いトークンの部分集合に基づいていることを観察しました。これは、正確な画像認識に十分であることが確認されています。この観察に基づいて、入力に応じて冗長なトークンを逐次的にかつ動的に剪定するための動的トークン疎化フレームワークを提案します。具体的には、現在の特徴量に基づいて各トークンの重要度スコアを推定する軽量予測モジュールを開発しました。このモジュールは異なる層に追加され、階層的に冗長なトークンを剪定します。エンドツーエンドで予測モジュールを最適化するために、自己注意の特性を利用してトークン間の相互作用をブロックすることで微分可能な形でトークンを剪定するための注意マスキング戦略を提案しています。自己注意の性質のおかげで、非構造的な疎なトークンでもハードウェアに対して友好的であり、これにより我々のフレームワークは実際の高速化を容易に達成できます。階層的に66%の入力トークンを剪定することで、当方法は31%~37%のFLOPs(Floating Point Operations per Second)を大幅に削減し、精度低下が0.5%以内という条件下で各種視覚トランスフォーマーにおいてスループットを40%以上向上させます。動的トークン疎化フレームワークを搭載したDynamicViTモデルは、ImageNet上で最先端のCNNや視覚トランスフォーマーと比較して非常に競争力のある複雑さ/精度トレードオフを達成できます。コードは以下のURLから入手可能です: https://github.com/raoyongming/DynamicViT