2ヶ月前

双方向クロスモーダル知識探索を用いた事前学習済み視覚言語モデルによるビデオ認識

Wenhao Wu; Xiaohan Wang; Haipeng Luo; Jingdong Wang; Yi Yang; Wanli Ouyang
双方向クロスモーダル知識探索を用いた事前学習済み視覚言語モデルによるビデオ認識
要約

大規模な画像-テキストペアで事前学習されたビジョン言語モデル(VLMs)は、さまざまな視覚タスクにおいて優れた転移性を示しています。このような強力なVLMsから知識を転移することは、効果的なビデオ認識モデルを構築するための有望な方向性です。しかし、この分野での現在の研究はまだ限定的です。私たちは、事前学習されたVLMsの最大の価値が視覚領域とテキスト領域の橋渡しにあると考えています。本論文では、クロスモーダルブリッジを利用して双方向的な知識を探求する新しいフレームワークであるBIKEを提案します。i) ビデオ属性関連メカニズムを導入し、ビデオからテキストへの知識を利用することで、ビデオ認識を補完するためのテキストによる補助属性を生成します。ii) また、パラメータフリーで時間的特徴量を捉えるTemporal Concept Spottingメカニズムも提示します。これは、テキストからビデオへの専門知識を使用して時間的な注目点を捉え、ビデオ表現を向上させます。Kinetics-400 & 600, UCF-101, HMDB-51, ActivityNet, Charadesなど6つの人気のあるビデオデータセットにおける広範な研究により、私たちの手法は一般認識、ゼロショット認識、ファーウショット認識などのさまざまな認識シナリオにおいて最先端の性能を達成することが示されました。私たちの最良モデルは、公開されているCLIPモデルを使用して困難なKinetics-400において88.6%という最先端の精度を達成しました。コードはhttps://github.com/whwu95/BIKE で利用可能です。

双方向クロスモーダル知識探索を用いた事前学習済み視覚言語モデルによるビデオ認識 | 最新論文 | HyperAI超神経