2ヶ月前

すべてのパッチが必要なものではない:トークン再編成を用いたビジョントランスフォーマーの高速化

Liang, Youwei ; Ge, Chongjian ; Tong, Zhan ; Song, Yibing ; Wang, Jue ; Xie, Pengtao
すべてのパッチが必要なものではない:トークン再編成を用いたビジョントランスフォーマーの高速化
要約

ビジョントランスフォーマー(ViTs)は、画像のすべてのパッチをトークンとして取り扱い、それらの間でマルチヘッド自己注意機構(MHSA)を構築します。これらの画像トークンを完全に活用すると冗長な計算が発生します。なぜなら、すべてのトークンがMHSAにおいて注意を払っているわけではなく、意味的に無意味なまたは邪魔になる背景を含むトークンは、ViTの予測に積極的に貢献しないからです。本研究では、ViTモデルのフィードフォワードプロセス中に画像トークンを再編成する手法を提案し、これを取り入れて訓練を行います。各順方向推論において、クラストークン注意によってガイドされながら、MHSAとFFN(すなわちフィードフォワードネットワーク)モジュール間で注意を払っている画像トークンを特定します。その後、注意を払っている画像トークンを保持し、注意を払っていないトークンを融合することで、後続のMHSAおよびFFN計算を加速します。この目的のために、当手法EViTはViTsに対して2つの観点から改善を行います。第一に、同じ数の入力画像トークンを使用する場合でも、当手法はMHSAとFFN計算量を削減し効率的な推論を実現します。例えば、DeiT-Sの推論速度は50%向上し、ImageNet分類における認識精度はわずか0.3%低下するのみです。第二に、同じ計算コストのもとで当手法はViTsに入力される画像トークン数を増やし認識精度向上を目指します。ここでいう画像トークンは高解像度画像からのものです。具体的には、通常のDeiT-Sと同じ計算コストでImageNet分類における認識精度を1%向上させることに成功しました。なお、当手法はViTsに新たなパラメータを持ち込まないという特徴があります。標準的なベンチマークでの実験結果により当手法の有効性が示されています。コードは https://github.com/youweiliang/evit で公開されています。

すべてのパッチが必要なものではない:トークン再編成を用いたビジョントランスフォーマーの高速化 | 最新論文 | HyperAI超神経