HyperAIHyperAI

Command Palette

Search for a command to run...

Video-CoE:イベント連鎖による動画事象予測の強化

Qile Su Jing Tang Rui Chen Lei Sun Xiangxiang Chu

概要

多モーダル大規模言語モデル(MLLM)の各種ビデオタスクへの応用は進展しているものの、ビデオイベント予測(VEP)は依然として十分に研究されていません。VEP は、モデルにビデオの細粒度な時間モデル化を行い、ビデオと将来のイベント間の論理的関係を構築することを要求しますが、現在の MLLM はこの点で依然として困難に直面しています。本研究では、まず VEP タスクにおける主要な MLLM の包括的な評価を行い、予測精度が不十分な要因を明らかにしました。具体的には、将来イベントの予測における論理的推論能力の欠如、および視覚情報の活用不足が挙げられます。これらの課題に対処するため、私たちは「イベント連鎖(Chain of Events: CoE)」という新たなパラダイムを提案します。このアプローチは、時間的なイベント連鎖を構築することで、MLLM が視覚内容およびビデオと将来のイベント間の論理的関係に暗黙的に注力することを強制し、複数の学習プロトコルを通じてモデルの推論能力を促進します。公開ベンチマークにおける実験結果は、本手法が主要なオープンソースおよび商用 MLLM を上回り、VEP タスクにおいて新たな最先端(state-of-the-art)を確立することを示しています。コードおよびモデルは近日公開予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています