2ヶ月前
VideoCLIP: ゼロショット動画-テキスト理解のための対照的前学習
Xu, Hu ; Ghosh, Gargi ; Huang, Po-Yao ; Okhonko, Dmytro ; Aghajanyan, Armen ; Metze, Florian ; Zettlemoyer, Luke ; Feichtenhofer, Christoph

要約
私たちは、ラベルを使用せずにダウンストリームタスクでゼロショットのビデオとテキスト理解を可能にする統合モデルの事前学習に向けた対照的手法であるVideoCLIPを提案します。VideoCLIPは、時間的に重なる肯定的なビデオ-テキストペアと、近傍探索から得られる難易度の高い否定例との対比によって、ビデオとテキストのトランスフォーマーを学習します。多様な一連のダウンストリームタスク(シーケンスレベルでのテキスト-ビデオ検索、VideoQA、トークンレベルでのアクション局所化、アクションセグメンテーションなど)に対する実験結果は、最先端の性能を示しており、先行研究を上回り、場合によっては監督学習アプローチよりも優れた結果を出しています。コードは以下のURLで公開されています: https://github.com/pytorch/fairseq/tree/main/examples/MMPT.