17日前

ゼロショット動画質問応答における手順型プログラムの活用

Rohan Choudhury, Koichiro Niinuma, Kris M. Kitani, László A. Jeni
ゼロショット動画質問応答における手順型プログラムの活用
要約

動画に関するゼロショット質問に答えるために、視覚的サブタスクの連鎖を解くことによって最終的な答えを導出する短い手順型プログラムを生成する手法を提案する。本研究では、入力された質問とプロンプト内に含まれる視覚モジュールのAPIを用いて、大規模言語モデルがこのようなプログラムを生成し、実行して出力を得る「手順型動画クエリ(Procedural Video Querying, ProViQ)」を提示する。近年の類似した手順型アプローチは画像質問応答において成功を収めてきたが、動画処理は依然として困難な課題である。本研究では、動画理解を目的としたモジュールを導入することで、ProViQが多様な動画に一般化可能となるようにしている。このコード生成フレームワークにより、ProViQは質問応答以外にも、複数オブジェクトの追跡や基本的な動画編集といった他の動画処理タスクを実行できる。ProViQは、短い質問、長い質問、開かれた形式の質問、マルチモーダルな質問応答データセットを含む多様なベンチマークにおいて、最先端の性能を達成しており、最大で25%の性能向上を実現した。プロジェクトページは以下のURLにて公開されている:https://rccchoudhury.github.io/proviq2023。

ゼロショット動画質問応答における手順型プログラムの活用 | 最新論文 | HyperAI超神経