3ヶ月前

エンドツーエンド型の生成的プリトレーニングによるマルチモーダル動画キャプション生成

Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid

要約

最近の動画および言語事前学習フレームワークは、文の生成能力を欠いています。本研究では、ラベルのない動画から学習可能な新しい事前学習フレームワークである「マルチモーダル動画生成事前学習（Multimodal Video Generative Pretraining, MV-GPT）」を提案します。このフレームワークは、マルチモーダル動画キャプション生成をはじめとする生成タスクに効果的に活用可能です。近年の動画-言語事前学習フレームワークとは異なり、本手法はマルチモーダル動画エンコーダと文デコーダを統合的に学習します。ラベルのない動画にはキャプションが存在しないため、本研究では将来の発話（utterance）を追加のテキスト情報源として活用し、双方向生成目的関数（bidirectional generation objective）を提案します。この目的関数により、現在のマルチモーダルな文脈から将来の発話を生成するだけでなく、将来の観測から現在の発話を再構成することも可能になります。この目的関数に基づき、エンコーダ-デコーダモデルをエンド・トゥ・エンドで学習し、入力として原始的なピクセルデータおよび音声の転写テキストを直接受け取り、キャプションを生成するモデルを構築しました。実験の結果、MV-GPTは4つの標準ベンチマークにおいてマルチモーダル動画キャプションタスクで最先端の性能を達成するとともに、VideoQA、動画検索、行動分類といった他の動画理解タスクにおいても優れた結果を示しました。