2ヶ月前

大規模言語モデルからビデオ表現を学習する

Zhao, Yue ; Misra, Ishan ; Krähenbühl, Philipp ; Girdhar, Rohit

要約

私たちはLaViLa（ラビラ）、大規模言語モデル（LLMs）を活用して映像言語表現を学習する新しい手法を紹介します。事前学習されたLLMsを視覚入力に条件付けし、それらを微調整することで自動的な動画ナレーターを作成します。私たちの自動生成されたナレーションは、長時間の動画に対する密なカバレッジ、視覚情報とテキストのより良い時間的同期、そしてテキストの多様性が大幅に向上しているという数々の利点を持っています。これらの追加の自動生成ナレーションと共に対照的に学習した動画-テキスト埋め込みは、ゼロショットおよび微調整設定において、複数の一人称および三人称動画タスクで従来の最先端技術を上回ります。特に注目に値するのは、EGTEA分類タスクとEpic-Kitchens-100多重インスタンス検索ベンチマークでLaViLaが絶対的な改善率10.1%と5.9%を達成したことです。さらに、Ego4Dデータセットから半分のナレーションのみを使用して訓練されたLaViLaは、全データセットで訓練されたベースラインモデルを上回り、事前学習データやモデルサイズの増加に伴う正規的なスケーリング特性も示しています。