HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP4Clip:エンドツーエンド動画クリップ検索におけるCLIPの実証的研究

Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li

概要

ビデオ・テキスト検索はマルチモーダル研究において重要な役割を果たしており、多くの実世界のウェブアプリケーションで広く利用されている。CLIP(Contrastive Language-Image Pre-training)は、ウェブ上で収集された画像・テキストデータセットから視覚的概念を学習する能力を示した画像・言語事前学習モデルである。本論文では、CLIPモデルの知識をエンド・ツー・エンドの形でビデオ・言語検索に転移するためのCLIP4Clipモデルを提案する。さらに、実証的研究を通じて以下の4つの問題を検討した:1)画像特徴のみでビデオ・テキスト検索は十分か? 2)CLIPに基づく大規模なビデオ・テキストデータセットにおける事後事前学習が性能に与える影響はいかなるものか? 3)動画フレーム間の時系列的依存関係をモデル化する実用的なメカニズムは何か? 4)モデルのハイパーパラメータがビデオ・テキスト検索タスクにおける感度はどの程度か? 広範な実験結果から、CLIPから転移されたCLIP4Clipモデルが、MSR-VTT、MSVC、LSMDC、ActivityNet、DiDeMoといったさまざまなビデオ・テキスト検索データセットにおいて、最先端(SOTA)の性能を達成できることを示した。本研究のコードは、https://github.com/ArrowLuo/CLIP4Clip にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています