2ヶ月前

共同トークン剪定と圧縮によるビジョントランスフォーマーのより積極的な圧縮

Wei, Siyuan ; Ye, Tianzhu ; Zhang, Shen ; Tang, Yao ; Liang, Jiajun
共同トークン剪定と圧縮によるビジョントランスフォーマーのより積極的な圧縮
要約

最近、ビジョントランスフォーマー(ViTs)は様々なコンピュータビジョンタスクにおいて有望な結果を示していますが、その高い計算コストが実用的な応用を制限しています。冗長なトークンを剪定する従来の手法は、性能と計算コストの間で良いトレードオフを達成しています。しかし、剪定戦略によって引き起こされる誤差は重要な情報損失につながる可能性があります。当社の定量的実験では、剪定されたトークンの性能への影響が顕著であることが明らかになりました。この問題に対処するために、私たちは効率的にビジョントランスフォーマーを圧縮するための新しいジョイントトークン剪定・圧縮モジュール(TPS)を提案します。まず、TPSは剪定により予約済みサブセットと剪定済みサブセットを得ます。次に、TPSは一方向最寄り近傍マッチングと類似性に基づく融合ステップを通じて、剪定されたトークンの情報を部分的に予約されたトークンに圧縮します。最先端の手法と比較して、当社のアプローチはすべてのトークン剪定強度において優れた性能を発揮します。特にDeiT-tiny&smallの計算予算を35%に削減した場合、ImageNet分類における精度はベースラインに対して1%-6%向上しました。提案された方法はDeiT-smallのスループットをDeiT-tinyを超えて加速させつつ、その精度はDeiT-tinyよりも4.78%上回ります。様々なトランスフォーマーに対する実験では当社方法の有効性が示され、分析実験ではトークン剪定ポリシーによる誤差に対する当社方法の高い堅牢性が証明されています。コードは以下のURLから入手可能です: https://github.com/megvii-research/TPS-CVPR2023.

共同トークン剪定と圧縮によるビジョントランスフォーマーのより積極的な圧縮 | 最新論文 | HyperAI超神経