8ヶ月前

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

概要

ビデオトランスフォーマーは、優れた表現力と柔軟性により、さまざまなビデオの下流タスクにおける主要な解決策となっています。しかし、これらのビデオトランスフォーマーは、全フレームにわたる大量のトークンによって引き起こされる重い計算コストに悩まされており、これがモデルの訓練における最大の障壁となっています。さらに、背景などの主なコンテンツに関連しないパッチがモデルの汎化性能を低下させる原因となっています。これらの問題に対処するため、私たちは追加の訓練なしで背景トークンをマージすることでビデオトランスフォーマーの効率を向上させることを目指した軽量ビデオトランスフォーマー（vid-TLDR）のための訓練フリー・トークンマージング手法を提案します。vid-TLDRでは、注目領域マップ（attention map）のみを使用してビデオ内の显著領域を捉える新しいアプローチを導入します。さらに、背景トークンを削除し、物体スコアを強調する显著性に基づくトークンマージング戦略を導入します。実験結果は、vid-TLDRがベースモデルと比較して競争力のある性能を維持しながら、ビデオトランスフォーマーの計算複雑さを大幅に軽減することを示しています。コードは https://github.com/mlvlab/vid-TLDR で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim

概要

ビデオトランスフォーマーは、優れた表現力と柔軟性により、さまざまなビデオの下流タスクにおける主要な解決策となっています。しかし、これらのビデオトランスフォーマーは、全フレームにわたる大量のトークンによって引き起こされる重い計算コストに悩まされており、これがモデルの訓練における最大の障壁となっています。さらに、背景などの主なコンテンツに関連しないパッチがモデルの汎化性能を低下させる原因となっています。これらの問題に対処するため、私たちは追加の訓練なしで背景トークンをマージすることでビデオトランスフォーマーの効率を向上させることを目指した軽量ビデオトランスフォーマー（vid-TLDR）のための訓練フリー・トークンマージング手法を提案します。vid-TLDRでは、注目領域マップ（attention map）のみを使用してビデオ内の显著領域を捉える新しいアプローチを導入します。さらに、背景トークンを削除し、物体スコアを強調する显著性に基づくトークンマージング戦略を導入します。実験結果は、vid-TLDRがベースモデルと比較して競争力のある性能を維持しながら、ビデオトランスフォーマーの計算複雑さを大幅に軽減することを示しています。コードは https://github.com/mlvlab/vid-TLDR で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

vid-TLDR: 軽量ビデオトランスフォーマーのための学習不要トークンマージング | 記事 | HyperAI超神経