HyperAIHyperAI

Command Palette

Search for a command to run...

ゼロショット動画質問応答における手順型プログラムの活用

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

概要

動画に関するゼロショット質問に答えるために、視覚的サブタスクの連鎖を解くことによって最終的な答えを導出する短い手順型プログラムを生成する手法を提案する。本研究では、入力された質問とプロンプト内に含まれる視覚モジュールのAPIを用いて、大規模言語モデルがこのようなプログラムを生成し、実行して出力を得る「手順型動画クエリ(Procedural Video Querying, ProViQ)」を提示する。近年の類似した手順型アプローチは画像質問応答において成功を収めてきたが、動画処理は依然として困難な課題である。本研究では、動画理解を目的としたモジュールを導入することで、ProViQが多様な動画に一般化可能となるようにしている。このコード生成フレームワークにより、ProViQは質問応答以外にも、複数オブジェクトの追跡や基本的な動画編集といった他の動画処理タスクを実行できる。ProViQは、短い質問、長い質問、開かれた形式の質問、マルチモーダルな質問応答データセットを含む多様なベンチマークにおいて、最先端の性能を達成しており、最大で25%の性能向上を実現した。プロジェクトページは以下のURLにて公開されている:https://rccchoudhury.github.io/proviq2023


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています