
動画アクション認識における伝統的なアプローチは、ニューラルモデルが標準的かつ古典的な1対N多数決(majority vote)タスクを実行することを要求する。これらのモデルは、あらかじめ定義された固定カテゴリ群を予測するように学習されるため、未観測の概念を含む新たなデータセットへの汎化能力に制限がある。本論文では、ラベルテキストの意味情報を単に数値にマッピングするのではなく、その意味的側面に着目することで、アクション認識の新たな視点を提示する。具体的には、マルチモーダル学習フレームワーク内において、このタスクを「動画-テキストマッチング問題」として定式化する。これにより、より豊かな意味的言語監視によって動画表現が強化され、追加のラベル付きデータやパラメータの再学習を一切行わずにゼロショット(zero-shot)アクション認識が可能となる。さらに、ラベルテキストの不足を補うため、膨大なウェブデータを活用する新しい枠組みを提案する。この枠組みは、本マルチモーダル学習フレームワークに基づき、「事前学習(pre-train)→ プロンプト設計(prompt)→ 最適化(fine-tune)」という新しいパラダイムとして提唱する。このパラダイムは、まず大量のウェブ画像-テキストまたは動画-テキストデータを用いた事前学習により強力な表現を学習する。次に、プロンプト工学(prompt engineering)を用いて、アクション認識タスクを事前学習の問題に類似させる。最後に、ターゲットデータセット上でエンド・ツー・エンドのファインチューニングを実施し、優れた性能を達成する。本パラダイムの具体例として、ActionCLIPを提示する。ActionCLIPは、優れたゼロショットおよび少数ショット(few-shot)の汎化能力を備えながら、一般的なアクション認識タスクにおいてもトップクラスの性能を達成しており、バックボーンにViT-B/16を用いた場合、Kinetics-400データセットにおいてトップ1精度83.8%を達成した。コードは以下のGitHubリポジトリで公開されている:https://github.com/sallymmx/ActionCLIP.git