2ヶ月前
PPT: トークンプルーニングとプーリングによる効率的なビジョントランスフォーマー
Wu, Xinjian ; Zeng, Fanhu ; Wang, Xiudong ; Chen, Xinghao

要約
Vision Transformers (ViTs) は、コンピュータビジョン分野において強力なモデルとして台頭し、様々な視覚タスクで優れた性能を発揮しています。しかし、高い計算複雑さが実際のアプリケーションにおける実用的な障壁となっています。すべてのトークンが最終予測に同等の貢献をしないこと、そして少ないトークン数が低い計算コストをもたらすことを踏まえて、冗長なトークンの削減はビジョントランスフォーマーの加速のために一般的な手法となっています。しかし、私たちはトークンプルーニングによる注意不足の冗長性のみを削減するか、またはトークンマージングによる重複の冗長性のみを削減することは最適ではないと考えています。この問題に対処するために、本論文では新しい加速フレームワークであるトークンプルーニング&プーリングトランスフォーマー (PPT) を提案します。PPT は追加の学習可能なパラメータなしで ViTs にトークンプルーニングとトークンプーリング技術を直感的に統合し、異なる層でこれらの2種類の冗長性を適応的に処理します。これにより、PPT はモデルの複雑さを効果的に低減しつつ、予測精度を維持することができます。例えば、ImageNet データセット上で DeiT-S の精度低下なしに PPT は37%以上のFLOPs(浮動小数点演算)を削減し、スループットを45%以上向上させます。コードは https://github.com/xjwu1024/PPT および https://github.com/mindspore-lab/models/ で利用可能です。