
要約
最近の研究で、大規模な画像-テキストペアデータを用いた視覚言語モデルの大規模事前学習が、ゼロショットタスクにおいて優れた汎化能力を示していることが明らかになりました。この成功を基に、CLIPなどの画像ベースの視覚言語モデルをビデオ領域に適応させ、そのゼロショット能力をビデオ領域にも拡張する試みが行われています。これらの適応は有望な結果を示していますが、大きな計算コストがかかり、ビデオ固有の重要な時間的な側面を効果的にモデル化することが困難です。本研究では、これらの課題に対処するためのシンプルかつ効率的なCLIPの適応版であるEZ-CLIPを提案します。EZ-CLIPは時間的な視覚プロンプトを利用することで、時間的な適応をスムーズに行い、コアのCLIPアーキテクチャに根本的な変更を加えることなくその優れた汎化能力を維持します。さらに、新しい学習目標を導入し、時間的な視覚プロンプトが動きに焦点を当てるよう誘導することで、ビデオデータからの学習能力を向上させます。私たちは5つの異なるベンチマークデータセットを使用して広範な実験を行い、EZ-CLIPのゼロショット学習と基本から新規ビデオアクション認識について詳細に評価しました。また、少量のサンプルからも汎化できる可能性も示しています。印象的に、わずか520万個の学習可能なパラメータ(従来の最良モデルでは7110万個)で単一GPU上で効率的に訓練できることから、EZ-CLIPは既存の手法を超える性能をいくつかの評価で発揮しています。