17日前

CLIP-ViP：事前学習済み画像テキストモデルを動画言語表現の整合に適応する

Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo

要約

事前学習された画像・テキストモデル（例：CLIP）は、ウェブから収集された大規模な画像・テキストデータから学習された視覚言語表現の強力な能力を示している。既存の研究では、学習済みの視覚特徴を活用して画像表現を動画領域に転移し、良好な結果が得られている。しかし、画像・言語事前学習モデル（例：CLIP）を動画・言語事前学習（ポスト事前学習）にどのように活用するかについては、まだ十分に検討されていない。本論文では以下の2つの問いに着目する：1）CLIPをポスト事前学習によって動画・言語タスクの性能向上をさらに図る上で、どのような要因が障壁となっているのか？2）これらの要因の影響をどのように軽減できるか？一連の比較実験および分析を通じて、我々はデータ規模および言語情報源間のドメインギャップが大きな影響を及ぼしていることを明らかにした。この知見を踏まえ、CLIPに基づき、動画プロキシ機構（Video Proxy mechanism）を搭載した「Omnisource Cross-modal Learning」手法を提案する。これを実現したモデルをCLIP-ViPと命名する。広範な実験結果から、本手法はCLIPの動画・テキスト検索性能を大幅に向上させることを示した。さらに、MSR-VTT、DiDeMo、LSMDC、ActivityNetなど多様なデータセットにおいても、最先端（SOTA）の性能を達成した。コードおよび事前学習済みCLIP-ViPモデルは、https://github.com/microsoft/XPretrain/tree/main/CLIP-ViPにて公開する予定である。