6ヶ月前

視覚質問応答

ビデオ処理

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Juhong Min Shyamal Buch Arsha Nagrani Minsu Cho Cordelia Schmid

概要

本稿では、分解型の多段階モジュール構造を採用した推論フレームワークを用いて、動画質問応答（videoQA）タスクに取り組む。従来のモジュール型手法は、視覚的コンテンツに根拠のない単一の計画段階を用いることで有望な結果を示してきたが、本研究では簡単かつ効果的なベースラインを構築した結果、このようなシステムは困難な動画QA設定において実用上脆い挙動を示すことが明らかになった。これに対し、従来の単一段階計画手法とは異なり、イベントパーサー、接地段階（grounding stage）、最終推論段階を備えた多段階システムを提案する。これらは外部メモリと連携し、すべての段階が訓練不要であり、大規模モデルに対する少サンプルプロンプティング（few-shot prompting）によって実行される。各段階で解釈可能な中間出力を得られる点が特徴である。本手法であるMoReVQAは、潜在的な計画およびタスクの複雑性を分解することで、標準的な動画QAベンチマーク（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）において従来手法を上回る最先端の性能を達成するとともに、関連タスク（接地型動画QA、段落キャプション生成）への拡張も可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

ビデオ処理

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Juhong Min Shyamal Buch Arsha Nagrani Minsu Cho Cordelia Schmid

概要

本稿では、分解型の多段階モジュール構造を採用した推論フレームワークを用いて、動画質問応答（videoQA）タスクに取り組む。従来のモジュール型手法は、視覚的コンテンツに根拠のない単一の計画段階を用いることで有望な結果を示してきたが、本研究では簡単かつ効果的なベースラインを構築した結果、このようなシステムは困難な動画QA設定において実用上脆い挙動を示すことが明らかになった。これに対し、従来の単一段階計画手法とは異なり、イベントパーサー、接地段階（grounding stage）、最終推論段階を備えた多段階システムを提案する。これらは外部メモリと連携し、すべての段階が訓練不要であり、大規模モデルに対する少サンプルプロンプティング（few-shot prompting）によって実行される。各段階で解釈可能な中間出力を得られる点が特徴である。本手法であるMoReVQAは、潜在的な計画およびタスクの複雑性を分解することで、標準的な動画QAベンチマーク（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）において従来手法を上回る最先端の性能を達成するとともに、関連タスク（接地型動画QA、段落キャプション生成）への拡張も可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MoReVQA：動画質問応答におけるモジュール型推論モデルの探索 | 記事 | HyperAI超神経