8ヶ月前

ビデオ理解

アプローチ／フレームワーク

オーディオ

コンピュータビジョン

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

概要

私たちはToken Merging (ToMe)を紹介します。これは既存のViTモデルのスループットを訓練せずに向上させる単純な手法です。ToMeは、高速で軽量なマッチングアルゴリズムを使用してトランスフォーマー内の類似トークンを段階的に結合し、プルーニングと同じ速さでより正確に動作します。既製品として、ToMeはViT-L @ 512とViT-H @ 518の画像処理スループットを2倍に、ビデオ処理スループットではViT-Lを2.2倍に向上させることができます。それぞれの場合において精度低下は0.2-0.3%に過ぎません。また、ToMeは訓練中に簡単に適用でき、ビデオでのMAEファインチューニングの実際の訓練速度を最大2倍まで向上させます。ToMeを使用した訓練により、精度低下がさらに最小化され、音声処理におけるViT-Bのスループットを0.4% mAP低下というわずかな代償で2倍に向上させることができます。定性的には、ToMeが複数フレームにわたるビデオにおいても物体の部分を1つのトークンに結合することが確認されています。全体的に見ると、ToMeの精度と速度は画像、ビデオ、音声において最先端技術と競争力があります。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

アプローチ／フレームワーク

オーディオ

コンピュータビジョン

Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer Judy Hoffman

概要

私たちはToken Merging (ToMe)を紹介します。これは既存のViTモデルのスループットを訓練せずに向上させる単純な手法です。ToMeは、高速で軽量なマッチングアルゴリズムを使用してトランスフォーマー内の類似トークンを段階的に結合し、プルーニングと同じ速さでより正確に動作します。既製品として、ToMeはViT-L @ 512とViT-H @ 518の画像処理スループットを2倍に、ビデオ処理スループットではViT-Lを2.2倍に向上させることができます。それぞれの場合において精度低下は0.2-0.3%に過ぎません。また、ToMeは訓練中に簡単に適用でき、ビデオでのMAEファインチューニングの実際の訓練速度を最大2倍まで向上させます。ToMeを使用した訓練により、精度低下がさらに最小化され、音声処理におけるViT-Bのスループットを0.4% mAP低下というわずかな代償で2倍に向上させることができます。定性的には、ToMeが複数フレームにわたるビデオにおいても物体の部分を1つのトークンに結合することが確認されています。全体的に見ると、ToMeの精度と速度は画像、ビデオ、音声において最先端技術と競争力があります。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています