Command Palette
Search for a command to run...
トークンマージング:あなたのViTをさらに高速化する
トークンマージング:あなたのViTをさらに高速化する
Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman
概要
私たちはToken Merging (ToMe)を紹介します。これは既存のViTモデルのスループットを訓練せずに向上させる単純な手法です。ToMeは、高速で軽量なマッチングアルゴリズムを使用してトランスフォーマー内の類似トークンを段階的に結合し、プルーニングと同じ速さでより正確に動作します。既製品として、ToMeはViT-L @ 512とViT-H @ 518の画像処理スループットを2倍に、ビデオ処理スループットではViT-Lを2.2倍に向上させることができます。それぞれの場合において精度低下は0.2-0.3%に過ぎません。また、ToMeは訓練中に簡単に適用でき、ビデオでのMAEファインチューニングの実際の訓練速度を最大2倍まで向上させます。ToMeを使用した訓練により、精度低下がさらに最小化され、音声処理におけるViT-Bのスループットを0.4% mAP低下というわずかな代償で2倍に向上させることができます。定性的には、ToMeが複数フレームにわたるビデオにおいても物体の部分を1つのトークンに結合することが確認されています。全体的に見ると、ToMeの精度と速度は画像、ビデオ、音声において最先端技術と競争力があります。