7日前
VideoCoCa:対比キャプション生成モデルからのゼロショット転移を用いた動画-テキストモデリング
Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh, Yonghui Wu, Jiahui Yu

要約
我々は、基礎となる動画-テキストモデルを構築する効率的なアプローチを検討する。本研究では、事前学習済みの画像-テキスト対比キャプションモデル(CoCa)を最大限に再利用し、追加学習を最小限に抑えて動画-テキストタスクに適応する「VideoCoCa」を提案する。従来の手法では、複数フレーム間の融合モジュールを用いて画像-テキストモデルを動画タスクに適応していたが、本研究ではCoCaに内蔵された生成的アテンションプーリングおよび対比的アテンションプーリング層が、フラット化されたフレーム埋め込みに対して即座に適応可能であることを発見した。この特性により、ゼロショット動画分類およびゼロショットテキストから動画への検索において、最先端の性能を達成した。さらに、VideoCoCaの上位に軽量なファインチューニングを適用することで、動画質問応答および動画キャプションタスクにおいても優れた結果を得た。