2ヶ月前

TS-LLaVA: サムネイルとサンプリングを用いた視覚トークンの構築による学習不要のビデオ大規模言語モデル

Tingyu Qu; Mingxiao Li; Tinne Tuytelaars; Marie-Francine Moens
TS-LLaVA: サムネイルとサンプリングを用いた視覚トークンの構築による学習不要のビデオ大規模言語モデル
要約

最近のマルチモーダル大規模言語モデル(LLM)の進歩は、マルチモーダルコンテンツの理解において大きな成功を収めています。ビデオ理解タスクの場合、高品質で整理されたビデオ-テキスト対応データの希少性から、学習ベースのビデオLLMの構築は困難です。一方、画像-テキスト対応データは比較的容易に入手でき、画像とビデオには多くの類似性があります。したがって、画像LLMをビデオ理解タスクに拡張することは魅力的な代替手段となります。複数フレームからの視覚トークンの圧縮に効果的な戦略を開発することは、強力な事前学習済み画像LLMを活用する有望な方法です。本研究では、学習不要のビデオLLM構築における既存の圧縮戦略の制限を探ります。その結果から導き出された方法がTS-LLaVAであり、サムネイル・サンプリング戦略を通じて視覚トークンを構築します。ビデオが与えられた場合、すべての入力フレームから等間隔に少数のフレームを選択し、詳細な視覚的ヒントとしてサムネイル画像を作成します。これに加えて、すべての入力フレームからサンプリングされた視覚トークンを補完します。当社の手法は、さまざまなベンチマークにおいて学習不要のビデオLLMの中で最新の最先端性能を達成しています。特に340億パラメータモデルはMVBenchベンチマークでGPT-4Vを上回り、難易度が高いMLVUベンチマークでは720億パラメータの学習ベースビデオLLMであるVideo-LLaMA2と同等以上の性能を達成しています。コードはhttps://github.com/tingyu215/TS-LLaVA で公開されています。

TS-LLaVA: サムネイルとサンプリングを用いた視覚トークンの構築による学習不要のビデオ大規模言語モデル | 最新論文 | HyperAI超神経