HyperAIHyperAI

Command Palette

Search for a command to run...

一般動画認識のための言語-画像事前学習モデルの拡張

Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling

概要

対照的言語・画像事前学習(Contrastive language-image pretraining)は、Web規模のデータから視覚的・テキスト的共同表現を学習する上で大きな成功を収めており、さまざまな画像タスクにおいて顕著な「ゼロショット(zero-shot)」汎化能力を示している。しかし、このような新しい言語・画像事前学習手法を動画領域に効果的に拡張する方法は、依然として未解決の課題である。本研究では、新たなモデルをゼロから事前学習するのではなく、既存の事前学習済み言語・画像モデルを直接動画認識に適応する、簡潔かつ効果的なアプローチを提案する。具体的には、時間軸に沿ったフレーム間の長距離依存関係を捉えるために、フレーム間で明示的に情報を交換する「クロスフレームアテンション機構」を提案する。このモジュールは軽量であり、事前学習済みの言語・画像モデルにスムーズに統合可能である。さらに、動画固有のプロンプト設計(prompting scheme)を導入し、動画コンテンツの情報を活用して判別力の高いテキストプロンプトを生成する。広範な実験により、本手法が有効であり、異なる動画認識シナリオに一般化可能であることが示された。特に、完全教師あり設定において、Kinetics-400データセットでトップ1精度87.1%を達成し、Swin-LおよびViViT-Hと比較して12倍少ないFLOPsで実現した。ゼロショット実験では、2つの一般的な評価プロトコルにおいて、現在の最先端手法をそれぞれ+7.6%および+14.9%のトップ1精度で上回った。少量ラベル付きデータが限られる少データ(few-shot)設定においても、前例の最高性能を+32.1%および+23.1%上回った。コードおよびモデルは、https://aka.ms/X-CLIP で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています