2ヶ月前

Video-LaVIT: 統合されたビデオ言語事前学習における分離型視覚-モーショントークン化

Yang Jin; Zhicheng Sun; Kun Xu; Kun Xu; Liwei Chen; Hao Jiang; Quzhe Huang; Chengru Song; Yuliang Liu; Di Zhang; Yang Song; Kun Gai; Yadong Mu
Video-LaVIT: 統合されたビデオ言語事前学習における分離型視覚-モーショントークン化
要約

最近のマルチモーダル大規模言語モデル(LLMs)の進展に伴い、これらのモデルを画像テキストデータからより情報量の多い実世界のビデオへと拡張する動きが注目を集めています。静止画と比較して、ビデオはその空間時間的な動態をモデリングするという独自の課題を抱えており、効果的な大規模事前学習には特別な配慮が必要です。本論文では、ビデオ言語事前学習におけるこのような制約を解決するために、各ビデオをキーフレームと時間的動きに効率的に分解する手法を提案します。これらの要素は、視覚情報と時間情報を数少ないトークンに離散化するように設計されたトークナイザーを使用して大規模言語モデル(LLM)に適応させます。これにより、ビデオ、画像、およびテキストの統一的な生成的事前学習が可能になります。推論時には、LLMから生成されたトークンが慎重に元の連続ピクセル空間に戻され、様々なビデオコンテンツが作成されます。提案したフレームワークは、画像およびビデオコンテンツの理解と生成能力を持つことが示されており、13つのマルチモーダルベンチマークにおいて競争力のある性能を発揮しています。当該コードおよびモデルは https://video-lavit.github.io で公開されています。