HyperAIHyperAI

Command Palette

Search for a command to run...

ReVisionLLM: 時間的な位置づけのための再帰的な視覚言語モデル - 長時間ビデオ向け

Tanveer Hannan Md Mohaiminul Islam Jindong Gu Thomas Seidl Gedas Bertasius

概要

大規模言語モデル(LLMs)は長いテキストから情報を抽出する能力に優れていますが、視覚-言語モデル(VLMs)は1時間以上の動画、特に時系列の位置づけにおいて困難を抱えています。具体的には、これらのVLMsはフレーム制限により、長期的な動画コンテンツにおける正確なイベントの局在化に必要な重要な時系列詳細を失う傾向があります。本研究では、1時間以上の動画でイベントの位置を特定するための再帰的視覚-言語モデルであるReVisionLLMを提案します。人間の検索戦略に着想を得て、当モデルは最初に広範な関心領域を対象とし、その後焦点を段階的に修正することで正確な時系列境界を特定します。当モデルは数分から数時間の長さが大きく異なる動画もシームレスに対処できます。また、短いクリップから始まり個別のイベントを捉え、徐々に長い動画へと拡張する階層的な学習戦略も導入しています。我々の知る限り、ReVisionLLMは1時間以上の動画での時系列位置づけが可能な最初のVLMであり、複数のデータセットにおいて従来の最先端手法を大幅に上回る性能を示しています(MADデータセットでは[email protected]で+2.6%)。コードは https://github.com/Tanveer81/ReVisionLLM で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています