17日前
MoReVQA:動画質問応答におけるモジュール型推論モデルの探索
Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid

要約
本稿では、分解型の多段階モジュール構造を採用した推論フレームワークを用いて、動画質問応答(videoQA)タスクに取り組む。従来のモジュール型手法は、視覚的コンテンツに根拠のない単一の計画段階を用いることで有望な結果を示してきたが、本研究では簡単かつ効果的なベースラインを構築した結果、このようなシステムは困難な動画QA設定において実用上脆い挙動を示すことが明らかになった。これに対し、従来の単一段階計画手法とは異なり、イベントパーサー、接地段階(grounding stage)、最終推論段階を備えた多段階システムを提案する。これらは外部メモリと連携し、すべての段階が訓練不要であり、大規模モデルに対する少サンプルプロンプティング(few-shot prompting)によって実行される。各段階で解釈可能な中間出力を得られる点が特徴である。本手法であるMoReVQAは、潜在的な計画およびタスクの複雑性を分解することで、標準的な動画QAベンチマーク(NExT-QA、iVQA、EgoSchema、ActivityNet-QA)において従来手法を上回る最先端の性能を達成するとともに、関連タスク(接地型動画QA、段落キャプション生成)への拡張も可能である。