11日前

事前学習された視覚および言語モデルを用いたマルチモーダルオープンボリューム動画分類

Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui
事前学習された視覚および言語モデルを用いたマルチモーダルオープンボリューム動画分類
要約

大規模な画像-テキストペアで事前学習された視覚・言語モデル(VLMs)を活用するアプローチは、オープンボリューム視覚認識の有望な枠組みとして注目されている。本研究では、動画に自然に存在する運動情報と音声情報を活用することで、この枠組みを拡張する。我々は、Multimodal Open-Vocabulary動画分類を実現するシンプルかつ効果的な手法「MOV」を提案する。MOVでは、事前学習済みVLMの視覚エンコーダを最小限の変更で用いて、動画、光流(optical flow)、音声スペクトログラムをそれぞれエンコードする。さらに、補完的なマルチモーダル情報を効果的に統合するためのクロスモーダル融合機構を設計した。Kinetics-700およびVGGSoundにおける実験結果から、光流または音声モダリティを導入することで、事前学習済みVLMおよび既存手法に比べて顕著な性能向上が得られた。特に、MOVはベースクラスにおける精度を大幅に向上させるとともに、新規クラスに対する汎化性能も優れている。UCFおよびHMDBにおけるゼロショット動画分類ベンチマークでは、従来のゼロショット手法および最近のVLMベース手法を大きく上回り、最先端の性能を達成した。コードおよびモデルは公開予定である。

事前学習された視覚および言語モデルを用いたマルチモーダルオープンボリューム動画分類 | 最新論文 | HyperAI超神経