7日前

VindLU：効果的なビデオ・言語事前学習のためのレシピ

Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius

要約

過去数年間、映像と言語（VidL）理解分野では著しい進展が見られた。しかし、現在の多くのVidLアプローチは複雑かつ特化されたモデルアーキテクチャと高度に洗練された事前学習プロトコルを採用しており、これによりこれらのフレームワークの再現性、分析および比較が困難な状況にあった。そこで、新たなVidLモデルの提案にとどまらず、本論文ではVidLモデル設計における最も重要な要因を解明する包括的な実証的研究を実施した。検討対象とした要因には、(i) 時空間アーキテクチャ設計、(ii) 多モーダル融合方式、(iii) 事前学習目的関数、(iv) 事前学習データの選定、(v) 事前学習および微調整プロトコル、(vi) データセットおよびモデルのスケーリングが含まれる。実証研究の結果、最も重要な設計要因として、時間的モデリング、映像からテキストへの多モーダル融合、マスキングに基づく学習目的関数、および画像と映像の共同学習が同定された。これらの実証的知見を基に、効果的なVidL事前学習を実現するための段階的アプローチ「VindLU」を構築した。本研究のアプローチに基づき訓練された最終モデルは、外部のCLIP事前学習モデルに依存せずに、複数のVidLタスクにおいて最先端（SOTA）レベルまたはそれ以上の性能を達成した。特に、テキストから映像への検索タスクにおいて、DiDeMoでは61.2%、ActivityNetでは55.0%の精度を達成し、それぞれ現行SOTAを7.8%および6.1%上回った。さらに、ActivityNet-QA、MSRVTT-QA、MSRVTT-MC、TVQAの各ビデオ質問応答タスクにおいても、最先端の性能を達成した。本研究のコードおよび事前学習済みモデルは、以下のURLで公開されている：https://github.com/klauscc/VindLU。