エンティティプロンプトを用いたビデオ・言語事前学習によるアライメントとプロンプト化

動画と言語の事前学習は、さまざまな下流タスクにおいて有望な性能向上を示している。これまでの大多数の手法は、トランスフォーマーに基づくマルチモーダルエンコーダーを用いてクロスモーダルな相互作用を捉えているが、単モーダルな動画特徴とテキスト特徴の間の不整合問題は十分に解決されていない。また、細粒度な視覚-言語の対応関係を学習する場合、通常、オブジェクト検出器を外部ツールとして用いてオブジェクト情報を提供する必要があるが、これには検出器の語彙制限と高い計算コストという課題がある。本研究では、より良いクロスモーダル対応を実現する効率的かつ有効な動画-言語事前学習フレームワーク「Align and Prompt」を提案する。まず、インスタンスレベルで単モーダルな動画-テキスト特徴を対比的に整列させる「動画-テキスト対比損失(VTC損失)」を導入し、クロスモーダル相互作用のモデリングを容易にする。次に、細粒度な領域-エンティティ対応を学習することを目的とした新しい視覚的根拠付き事前学習タスク「エンティティモデリングのプロンプティング(PEM)」を提案する。このため、まずエンティティプロンプター(entity prompter)モジュールを導入し、VTC損失を用いて、エンティティ名でインスタンス化されたテキストプロンプトと動画のクロップ画像との類似度を生成するように学習する。その後、PEMタスクでは、ランダムに選択された動画クロップに対して、エンティティの擬似ラベル(すなわち正規化された類似度スコア)を予測させる。得られた事前学習モデルは、テキスト-動画検索および動画QAの両タスクにおいて、従来の手法を大幅に上回る最先端の性能を達成した。本研究のコードおよび事前学習済みモデルは、https://github.com/salesforce/ALPRO にて公開されている。