7日前

ViLA：動画質問応答のための効率的な動画-言語アライメント

Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang

要約

本研究では、効率的な動画-言語アライメント（Video-Language Alignment: ViLA）ネットワークを提案する。本研究で提唱するViLAモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントを統合的に解決する。ViLAネットワークでは、新たに学習可能なテキスト誘導型フレーム・プロンプター（text-guided Frame-Prompter）と、新たなクロスモーダル蒸留モジュール（QFormer-Distiller）を設計した。事前学習された大規模な画像-言語モデルは、視覚的質問応答（Visual Question Answering: VQA）などの課題において有望な成果を示している。しかし、こうした大規模な画像-言語モデルを動画-言語アライメントに適応する際、効率的かつ効果的に動画フレームをサンプリングする方法は依然として大きな課題である。従来手法と比較して、本ViLAモデルは重要コンテンツを含むキーフレームを適切に選択する能力を有しており、NExT-QA Temporalで推論遅延を+3.3%削減しつつ、3.0倍の高速化を実現した。全体として、本ViLAネットワークは動画質問応答ベンチマークにおいて最先端の手法を上回る性能を示した。STAR Interactionでは+4.6%、STAR平均では+2.2%の精度向上を達成し、3.0倍の高速化を実現した。また、VLEPデータセットにおいて、本モデルの2フレームアプローチがSeViLAの4フレームアプローチを上回り、4.2倍の高速化を達成した。コードは https://github.com/xijun-cs/ViLA にて公開される予定である。