17日前

CLIP2Video:Image CLIPを活用した動画-テキスト検索の習得

Han Fang, Pengfei Xiong, Luhui Xu, Yu Chen
CLIP2Video:Image CLIPを活用した動画-テキスト検索の習得
要約

我々は、画像・言語の事前学習モデルをエンドツーエンドの形で動画・テキスト検索に転移するためのCLIP2Videoネットワークを提案する。動画と言語の学習分野における先進的なアプローチは、大規模な動画・テキストデータセットから、時空間的な動画特徴および動画と言語のマルチモーダル相互作用を蒸留(distill)することを目指している。これに対して、本研究では事前学習済みの画像・言語モデルを活用し、それを二段階のフレームワークに簡略化。具体的には、画像・テキストの共同学習と、動画フレーム間の時間的関係の強化をそれぞれ別々に処理することで、比較的小規模なデータセットでも学習が可能となる。特に、対照的言語・画像事前学習(CLIP)モデルによって捉えられた空間的意味を基盤とし、細粒度の時間的動画フレームにおける運動を捉えるための「時間差分ブロック(Temporal Difference Block)」と、動画クリップと語句のトークンを再整列し、マルチモーダル相関を強化する「時間整合ブロック(Temporal Alignment Block)」を導入している。詳細なアブレーションスタディを実施した結果、MSR-VTT、MSVD、VATEXを含む主要なテキストから動画、動画からテキストへの検索ベンチマークにおいて、最先端の性能を達成し、いずれのデータセットでも検索精度の新記録を樹立した。

CLIP2Video:Image CLIPを活用した動画-テキスト検索の習得 | 最新論文 | HyperAI超神経