2ヶ月前

ビデオとテキストの検索を多肢選択問題で橋渡す

Yuying Ge; Yixiao Ge; Xihui Liu; Dian Li; Ying Shan; Xiaohu Qie; Ping Luo
ビデオとテキストの検索を多肢選択問題で橋渡す
要約

モデルの事前学習を用いて、検索に転用可能なビデオ-テキスト表現を学習することは、近年多くの注目を集めています。従来の主要な研究では、効率的な検索のために主に2つの別々のエンコーダーを使用していましたが、ビデオとテキストの局所的な関連性を見落としていました。一方、別の研究ラインでは、ビデオとテキストの相互作用を実現するために共同エンコーダーを使用していますが、各テキスト-ビデオペアをモデルに入力する必要があるため効率が低くなっています。本研究では、新しい前置タスクである「複数選択問題(Multiple Choice Questions: MCQ)」を通じて、細かいレベルでのビデオ-テキスト相互作用を可能にしながらも高い検索効率を維持します。具体的には、パラメトリックモジュールであるBridgeFormerを訓練し、テキスト特徴量によって構築された「質問」に対してビデオ特徴量を利用して回答させます。特に、テキストの豊かな意味論(例えば名詞や動詞)を利用して質問を作成し、これによりビデオエンコーダーはより地域的なコンテンツと時間的な動態を捉えるように訓練されます。質問と回答の形式により、局所的なビデオ-テキスト特徴量間の意味論的関連性が適切に確立されます。BridgeFormerは下流タスク向けの検索で不要になるため削除でき、これにより2つのエンコーダーのみで構成される効率的かつ柔軟なモデルが得られます。我々の方法は5つの異なる実験設定(すなわちゼロショットおよびファインチューニング)において人気のあるテキストからビデオへの検索タスクで最先端の手法を上回ります。これらにはHowTo100M(100万件のビデオ)も含まれています。さらに我々はゼロショットアクション認識を行いましたが、これはビデオからテキストへの検索として扱うことができ、我々のアプローチも同様にその対応する手法を大幅に上回りました。追加的な利点として、単一モダリティ下流タスク(例:線形評価によるアクション認識)においても、より短い事前学習用ビデオを使用して競争力のある結果を得ています。

ビデオとテキストの検索を多肢選択問題で橋渡す | 最新論文 | HyperAI超神経