2ヶ月前

自己連結画像言語モデルによるビデオ局所化と質問応答

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal
自己連結画像言語モデルによるビデオ局所化と質問応答
要約

最近の研究では、大規模な事前学習済み画像言語モデルをビデオ質問応答に利用することで有望な結果が得られています。これらの画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップできますが、通常は一様にサンプリングされたビデオフレームを視覚入力として連結し、明示的な言語認識や時間軸モデリングを行いません。ビデオ入力の一部のみが言語クエリに関連している場合、このような一様なフレームサンプリングは重要な視覚的ヒントを見落とすことがよくあります。人間はしばしば特定のビデオシーンに焦点を当て、そのシーンを巻き戻して質問に答えることが多いですが、クエリ認識型のビデオモーメントローカライザを訓練するには高価なアノテーションと高い計算コストが必要です。この問題に対処するために、私たちはSelf-Chained Video Localization-Answering (SeViLA)という新しいフレームワークを提案します。SeViLAは単一の画像言語モデル(BLIP-2)を利用して、時間軸上のキーフレームローカライゼーションとビデオ上的質問応答(QA)の両方に対処します。SeViLAフレームワークはLocalizerとAnswererという2つのモジュールで構成されており、これらはBLIP-2からパラメータ効率的に微調整されています。私たちはこれらのモジュールを連鎖させて段階的な推論と自己改良を行う2つの方法を提案します。まず、順方向チェーンでは、Localizerがビデオ内から複数の言語認識型キーフレームを見つけ出し、Answererがそれらを使用して答えを予測します。次に、逆方向チェーンでは、Answererがキーフレームの疑似ラベルを生成し、Localizerの改良に利用します。これにより高価なビデオモーメントローカライゼーションアノテーションへの依存が軽減されます。私たちのSeViLAフレームワークは5つの挑戦的なビデオQAおよびイベント予測ベンチマークにおいていくつかの強力なベースラインを超える性能を示し、微調整設定(NExT-QA, STAR)およびゼロショット設定(NExT-QA, STAR, How2QA, VLEP)において最先端の成果を達成しています。また、Localizerの影響分析、他の時間軸ローカライゼーションモデルとの比較分析、Localizerの事前学習/自己改良分析ならびにキーフレーム数の変動分析も行っています。

自己連結画像言語モデルによるビデオ局所化と質問応答 | 最新論文 | HyperAI超神経