17日前

質問指示型視覚記述によるゼロショット動画質問応答

David Romero, Thamar Solorio

要約

我々は、従来の複雑なアーキテクチャや計算コストの高いパイプライン、あるいはGPTなどの閉鎖型モデルに依存する手法とは異なり、単一の指示文対応型オープン型視覚言語モデル（InstructBLIP）を用いて動画質問応答（video QA）を実現するシンプルなアプローチ、Q-ViDを提案する。具体的には、動画に関するターゲットとなる質問に応じたキャプション生成用の指示文プロンプトを設計し、InstructBLIPを活用してタスクに有用な動画フレームのキャプションを取得する。その後、質問に依存するフレームキャプションを統合して動画全体の記述を構築し、その情報を質問応答用プロンプトとともに大規模言語モデル（LLM）に入力する。このLLMが推論モジュールとして機能し、最終的な複数選択形式のQA処理を実行する。提案するシンプルなQ-ViDフレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQAなど、多様な動画QAベンチマークにおいて、現在の最先端モデルと同等、あるいはそれ以上の性能を達成している。