HyperAIHyperAI

Command Palette

Search for a command to run...

質問指示型視覚記述によるゼロショット動画質問応答

David Romero Thamar Solorio

概要

我々は、従来の複雑なアーキテクチャや計算コストの高いパイプライン、あるいはGPTなどの閉鎖型モデルに依存する手法とは異なり、単一の指示文対応型オープン型視覚言語モデル(InstructBLIP)を用いて動画質問応答(video QA)を実現するシンプルなアプローチ、Q-ViDを提案する。具体的には、動画に関するターゲットとなる質問に応じたキャプション生成用の指示文プロンプトを設計し、InstructBLIPを活用してタスクに有用な動画フレームのキャプションを取得する。その後、質問に依存するフレームキャプションを統合して動画全体の記述を構築し、その情報を質問応答用プロンプトとともに大規模言語モデル(LLM)に入力する。このLLMが推論モジュールとして機能し、最終的な複数選択形式のQA処理を実行する。提案するシンプルなQ-ViDフレームワークは、NExT-QA、STAR、How2QA、TVQA、IntentQAなど、多様な動画QAベンチマークにおいて、現在の最先端モデルと同等、あるいはそれ以上の性能を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています