8ヶ月前

概要

長編映像の理解は、映像データの高い冗長性とクエリに関連しない情報の多さによって複雑化しています。これらの課題に対処するため、当研究ではVideoTreeを提案します。これは、長編映像に対してLLM（大規模言語モデル）による推論を行うために、学習不要のフレームワークであり、クエリに適応した階層的な映像表現を構築します。まず、VideoTreeは反復プロセスを通じて入力映像からクエリに関連する情報を抽出し、キーフレームの選択を段階的に精緻化していきます。さらに、VideoTreeは既存のLLMベースの手法でしばしば見落とされる長編映像データの固有の階層構造を活用します。具体的には、木構造表現に多粒度情報を組み込むことで、VideoTreeは粗いレベルから細かいレベルへと順次的にクエリに関連する詳細を抽出することが可能になります。これにより、異なる詳細レベルを持つ広範なビデオクエリを効果的に処理できます。最後に、VideoTreeは木構造内の階層的なクエリ関連情報を集約し、それをLLM推論モデルに入力してクエリに回答します。実験結果では、当手法が推論精度と効率性の両方を向上させていることが示されています。特に、EgoSchemaおよびNExT-QAにおいて既存の学習不要アプローチよりも優れた性能を発揮し、追加的な映像特有の学習なしでテストセットでの精度が61.1%と75.6%となっています。また、平均44分間という長時間分割されたVideo-MMEにおいても、GPT-4Vや大量のビデオデータで広範に学習された他の多くのMLLM（マルチモーダル大規模言語モデル）よりも優れた性能を達成しています。

ソースPDF