8ヶ月前

概要

大規模言語モデル（LLMs）は長いテキストから情報を抽出する能力に優れていますが、視覚-言語モデル（VLMs）は1時間以上の動画、特に時系列の位置づけにおいて困難を抱えています。具体的には、これらのVLMsはフレーム制限により、長期的な動画コンテンツにおける正確なイベントの局在化に必要な重要な時系列詳細を失う傾向があります。本研究では、1時間以上の動画でイベントの位置を特定するための再帰的視覚-言語モデルであるReVisionLLMを提案します。人間の検索戦略に着想を得て、当モデルは最初に広範な関心領域を対象とし、その後焦点を段階的に修正することで正確な時系列境界を特定します。当モデルは数分から数時間の長さが大きく異なる動画もシームレスに対処できます。また、短いクリップから始まり個別のイベントを捉え、徐々に長い動画へと拡張する階層的な学習戦略も導入しています。我々の知る限り、ReVisionLLMは1時間以上の動画での時系列位置づけが可能な最初のVLMであり、複数のデータセットにおいて従来の最先端手法を大幅に上回る性能を示しています（MADデータセットでは[email protected]で+2.6%）。コードは https://github.com/Tanveer81/ReVisionLLM で公開されています。

ソースPDF