一般動画認識のための言語-画像事前学習モデルの拡張

対照的言語・画像事前学習(Contrastive language-image pretraining)は、Web規模のデータから視覚的・テキスト的共同表現を学習する上で大きな成功を収めており、さまざまな画像タスクにおいて顕著な「ゼロショット(zero-shot)」汎化能力を示している。しかし、このような新しい言語・画像事前学習手法を動画領域に効果的に拡張する方法は、依然として未解決の課題である。本研究では、新たなモデルをゼロから事前学習するのではなく、既存の事前学習済み言語・画像モデルを直接動画認識に適応する、簡潔かつ効果的なアプローチを提案する。具体的には、時間軸に沿ったフレーム間の長距離依存関係を捉えるために、フレーム間で明示的に情報を交換する「クロスフレームアテンション機構」を提案する。このモジュールは軽量であり、事前学習済みの言語・画像モデルにスムーズに統合可能である。さらに、動画固有のプロンプト設計(prompting scheme)を導入し、動画コンテンツの情報を活用して判別力の高いテキストプロンプトを生成する。広範な実験により、本手法が有効であり、異なる動画認識シナリオに一般化可能であることが示された。特に、完全教師あり設定において、Kinetics-400データセットでトップ1精度87.1%を達成し、Swin-LおよびViViT-Hと比較して12倍少ないFLOPsで実現した。ゼロショット実験では、2つの一般的な評価プロトコルにおいて、現在の最先端手法をそれぞれ+7.6%および+14.9%のトップ1精度で上回った。少量ラベル付きデータが限られる少データ(few-shot)設定においても、前例の最高性能を+32.1%および+23.1%上回った。コードおよびモデルは、https://aka.ms/X-CLIP で公開されている。