2ヶ月前
トークンマージング:あなたのViTをさらに高速化する
Bolya, Daniel ; Fu, Cheng-Yang ; Dai, Xiaoliang ; Zhang, Peizhao ; Feichtenhofer, Christoph ; Hoffman, Judy

要約
私たちはToken Merging (ToMe)を紹介します。これは既存のViTモデルのスループットを訓練せずに向上させる単純な手法です。ToMeは、高速で軽量なマッチングアルゴリズムを使用してトランスフォーマー内の類似トークンを段階的に結合し、プルーニングと同じ速さでより正確に動作します。既製品として、ToMeはViT-L @ 512とViT-H @ 518の画像処理スループットを2倍に、ビデオ処理スループットではViT-Lを2.2倍に向上させることができます。それぞれの場合において精度低下は0.2-0.3%に過ぎません。また、ToMeは訓練中に簡単に適用でき、ビデオでのMAEファインチューニングの実際の訓練速度を最大2倍まで向上させます。ToMeを使用した訓練により、精度低下がさらに最小化され、音声処理におけるViT-Bのスループットを0.4% mAP低下というわずかな代償で2倍に向上させることができます。定性的には、ToMeが複数フレームにわたるビデオにおいても物体の部分を1つのトークンに結合することが確認されています。全体的に見ると、ToMeの精度と速度は画像、ビデオ、音声において最先端技術と競争力があります。