17日前

マルチモーダル時系列対比学習を用いた長時間動画言語事前学習

Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu
マルチモーダル時系列対比学習を用いた長時間動画言語事前学習
要約

大規模な動画・言語事前学習は、動画・言語理解タスクにおいて顕著な性能向上を示している。これまでの動画・言語事前学習に関する研究は、主に30秒以内の短尺動画と文に焦点を当てており、長尺動画を対象とした事前学習はほとんど検討されていない。長尺動画と自然言語から直接表現を学習することは、多くの長尺動画・言語理解タスクに有益であると考えられるが、長距離の時間的依存関係をモデル化する難しさおよびフレーム数の増加に伴う膨大な計算負荷のため、実現が困難であった。本論文では、既存の公開データセットから構築した大規模な長尺動画と段落データセットを用いて学習する、長尺動画・言語事前学習モデル「LF-VILA(Long-Form VIdeo-LAnguage pre-training model)」を提案する。効率的なエンドツーエンドの枠組みで、豊かな時間的ダイナミクスを捉え、動画と言語の間の良好な対応を実現するため、LF-VILAモデルにおいて二つの新規設計を導入する。第一に、長尺動画と段落の間で細粒度の対応を促進することで、異なるモダリティ間の時間的関係を学習するための「マルチモーダル時間的対比損失(Multimodal Temporal Contrastive, MTC)」を提案する。第二に、Transformerにおける計算コストを抑える一方で、長距離依存性を効果的に捉えるための「階層的時間窓アテンション(Hierarchical Temporal Window Attention, HTWA)」機構を設計する。提案モデルは、段落から動画を検索するタスクおよび長尺動画質問応答タスクを含む7つの下流タスクにおいて、事前学習済みのLF-VILAモデルを微調整し、新たな最先端性能を達成した。具体的には、ActivityNetの段落から動画を検索するタスクにおいて16.1%の相対的な性能向上、How2QAタスクでは2.4%の向上を実現した。本研究のコード、データセット、および事前学習済みモデルは、https://github.com/microsoft/XPretrain にて公開している。

マルチモーダル時系列対比学習を用いた長時間動画言語事前学習 | 最新論文 | HyperAI超神経