2ヶ月前
VLAB: 特徴適応とブレンドによるビデオ言語事前学習の強化
Xingjian He; Sihan Chen; Fan Ma; Zhicheng Huang; Xiaojie Jin; Zikang Liu; Dongmei Fu; Yi Yang; Jing Liu; Jiashi Feng

要約
大規模な画像-テキスト対照的前学習モデル(例:CLIP)は、高品質な多モーダル表現を効果的に学習することが示されています。しかし、これらの強力な特徴に基づいて一般的なビデオ多モーダルタスクのためのビデオ-テキスト表現を学習する研究は限られています。この目標に向けて、私たちは新しいビデオ-テキスト前学習手法であるVLAB(Video Language pre-training by feature Adapting and Blending)を提案します。VLABは、CLIPの表現をビデオ前学習タスクに転用し、幅広いビデオ-テキストタスク向けの一貫したビデオ多モーダルモデルを開発します。具体的には、VLABは2つの主要な戦略に基づいています:特徴適合と特徴ブレンド。前者では、新たなビデオアダプター・モジュールを導入し、CLIPが時系列情報をモデリングする能力の不足に対処し、モデルの機能を対照的タスクと生成的タスクの両方に拡張します。後者では、画像とビデオの特徴の相補性を利用することでモデルの性能をさらに向上させるエンドツーエンドの学習方法を提案しています。私たちは競争力のあるビデオ多モーダルタスクにおいて包括的な実験を通じてVLABの有効性と汎用性を検証しました。これらのタスクには、ビデオテキスト検索、ビデオキャプショニング、およびビデオ質問応答が含まれます。特に注目に値するのは、VLABがMSRVTT、MSVD、TGIFデータセットでのビデオ質問応答において競合する手法を大幅に上回り、新しい記録を樹立していることです。それぞれの精度は49.6%、61.0%、79.0%となっています。コードとモデルは公開される予定です。