6ヶ月前

ビデオ理解

エージェント

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

概要

長時間動画理解はコンピュータビジョン分野における重要な課題であり、長時間にわたるマルチモーダルなシーケンスに対して推論を行うことができるモデルの開発が求められている。人間の認知プロセスに着想を得て、本研究では、長大な視覚入力を処理する能力よりも、インタラクティブな推論と計画性を重視する。そこで、大規模言語モデル（LLM）を中枢エージェントとして用い、質問に答えるために反復的に重要な情報を特定・統合する新しいエージェントベースのシステム「VideoAgent」を提案する。視覚言語基盤モデルは、視覚情報の翻訳および検索を支援するツールとして機能する。EgoSchemaおよびNExT-QAという困難なベンチマーク上で評価した結果、VideoAgentはゼロショット設定下でそれぞれ54.1%および71.3%の正確率を達成し、平均してそれぞれ8.4フレームおよび8.2フレームの入力画像を使用した。これらの結果は、現在の最先端手法と比較して、本手法の優れた効果と効率性を示しており、エージェントベースのアプローチが長時間動画理解の進展に大きな可能性を秘めていることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

エージェント

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

概要

長時間動画理解はコンピュータビジョン分野における重要な課題であり、長時間にわたるマルチモーダルなシーケンスに対して推論を行うことができるモデルの開発が求められている。人間の認知プロセスに着想を得て、本研究では、長大な視覚入力を処理する能力よりも、インタラクティブな推論と計画性を重視する。そこで、大規模言語モデル（LLM）を中枢エージェントとして用い、質問に答えるために反復的に重要な情報を特定・統合する新しいエージェントベースのシステム「VideoAgent」を提案する。視覚言語基盤モデルは、視覚情報の翻訳および検索を支援するツールとして機能する。EgoSchemaおよびNExT-QAという困難なベンチマーク上で評価した結果、VideoAgentはゼロショット設定下でそれぞれ54.1%および71.3%の正確率を達成し、平均してそれぞれ8.4フレームおよび8.2フレームの入力画像を使用した。これらの結果は、現在の最先端手法と比較して、本手法の優れた効果と効率性を示しており、エージェントベースのアプローチが長時間動画理解の進展に大きな可能性を秘めていることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

VideoAgent：エージェントとしての大規模言語モデルを用いた長編動画理解 | 記事 | HyperAI超神経