2ヶ月前

アテンショントークンを超えて:効率的なビジョントランスフォーマーのためのトークンの重要性と多様性の組み込み

Long, Sifan ; Zhao, Zhen ; Pi, Jimin ; Wang, Shengsheng ; Wang, Jingdong
アテンショントークンを超えて:効率的なビジョントランスフォーマーのためのトークンの重要性と多様性の組み込み
要約

ビジョントランスフォーマーは様々な視覚タスクにおいて著しい改善を達成していますが、トークン間の二次的な相互作用により計算効率が大幅に低下する問題があります。最近、効率的なビジョントランスフォーマーの実現のために、冗長なトークンを除去する多くの剪定手法が提案されています。しかし、既存の研究は主にトークンの重要性に焦点を当て、局所的な注目トークンを保つことに重点を置いていますが、全体的なトークンの多様性には全く触れていません。本論文では、多様な全体的な意味的重要性を強調し、トークンの重要性と多様性を同時に考慮した効率的なトークン解離およびマージ手法を提案します。クラストークンアテンションに基づいて、注目トークンと非注目トークンを解離します。最も識別力のある局所的なトークンを保つだけでなく、類似した非注目トークンをマージし、同質な注目トークンを対応させることで、最大限のトークン多様性を確保します。この手法は単純でありながら、モデルの複雑さと分類精度との間で有望なトレードオフを得ています。DeiT-Sにおいて、我々の手法はFLOPs(浮動小数点演算回数)を35%削減しながら精度低下はわずか0.2%に抑えています。特に、トークン多様性の維持による恩恵を受け、DeiT-TではFLOPsを40%削減した後でも精度が0.1%向上しています。

アテンショントークンを超えて:効率的なビジョントランスフォーマーのためのトークンの重要性と多様性の組み込み | 最新論文 | HyperAI超神経