HyperAIHyperAI

Command Palette

Search for a command to run...

TESTA: 長尺ビデオ言語理解のための時空間トークン集約

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

概要

大規模なビデオ言語事前学習は、ビデオ言語理解タスクの進歩に著しい貢献をしています。しかし、特に長尺ビデオにおいて、ビデオエンコーディングの重い計算負荷は依然として効率性の大きなボトルネックとなっています。これらのビデオは、その本質的な3次元特性と時空間冗長性により、大量の視覚トークンを含んでおり、複雑な時間的および空間的な関係を捉えることが困難です。この問題に対処するため、私たちは適応的に類似フレームや各フレーム内の類似パッチを集約する効率的な手法である「時間空間トークン集約(TEmporal-Spatial Token Aggregation: TESTA)」を提案します。TESTAは視覚トークン数を75%削減し、ビデオエンコーディングの高速化を実現します。TESTAに基づいて、各ビデオエンコーダーブロックに分割された時空間トークン集約モジュールを搭載した事前学習済みのビデオ言語モデルを導入しました。我々のモデルは、段落からビデオ検索と長尺ビデオQAタスクのために5つのデータセットで評価されました。実験結果は、TESTAが計算効率を1.7倍向上させるとともに、より長い入力フレームの処理におけるスケーラビリティにより大幅な性能向上が達成されることを示しています。例えば、QuerYDでは+13.7 R@1、Condensed Movieでは+6.5 R@1の改善が見られました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています