9日前

CLIP4Clip:エンドツーエンド動画クリップ検索におけるCLIPの実証的研究

Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li
CLIP4Clip:エンドツーエンド動画クリップ検索におけるCLIPの実証的研究
要約

ビデオ・テキスト検索はマルチモーダル研究において重要な役割を果たしており、多くの実世界のウェブアプリケーションで広く利用されている。CLIP(Contrastive Language-Image Pre-training)は、ウェブ上で収集された画像・テキストデータセットから視覚的概念を学習する能力を示した画像・言語事前学習モデルである。本論文では、CLIPモデルの知識をエンド・ツー・エンドの形でビデオ・言語検索に転移するためのCLIP4Clipモデルを提案する。さらに、実証的研究を通じて以下の4つの問題を検討した:1)画像特徴のみでビデオ・テキスト検索は十分か? 2)CLIPに基づく大規模なビデオ・テキストデータセットにおける事後事前学習が性能に与える影響はいかなるものか? 3)動画フレーム間の時系列的依存関係をモデル化する実用的なメカニズムは何か? 4)モデルのハイパーパラメータがビデオ・テキスト検索タスクにおける感度はどの程度か? 広範な実験結果から、CLIPから転移されたCLIP4Clipモデルが、MSR-VTT、MSVC、LSMDC、ActivityNet、DiDeMoといったさまざまなビデオ・テキスト検索データセットにおいて、最先端(SOTA)の性能を達成できることを示した。本研究のコードは、https://github.com/ArrowLuo/CLIP4Clip にて公開している。