9日前

時系列の地盤付けブリッジを用いたマルチモーダル大規模言語モデルの効率的な時系列外挿

Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu, Zilong Zheng
時系列の地盤付けブリッジを用いたマルチモーダル大規模言語モデルの効率的な時系列外挿
要約

マルチモーダル大規模言語モデル(MLLM)の進展にもかかわらず、言語的質問に対する長時間動画の解釈という課題は、時間的局在(temporal grounding)の非効率性および事前学習時のコンテキスト窓サイズの制限により、依然として解決されていない。本研究では、先進的な時間的局在能力を備えたMLLMを構築し、そのコンテキスト範囲を拡張する新たなフレームワーク「Temporal Grounding Bridge(TGB)」を提案する。本フレームワークは、以下の3つの鍵となる革新により、現在のMLLMの時間的処理能力を顕著に向上させている:(1)光流(optical flow)から抽出された低次元時間特徴量に適用可能な効率的なマルチスパン時間的局在アルゴリズム;(2)低次元時間特徴量を活用して訓練時のコンテキスト窓サイズを拡張するマルチモーダル長さ外挿訓練パラダイム;(3)アノテーションを必要とせずに、プラグ可能(pluggable)なMLLMとモデルを橋渡しするブートストラップフレームワーク。TGBは7つの動画ベンチマーク上で検証され、従来のMLLMと比較して顕著な性能向上が示された。特に、初期学習時に4フレームのシーケンスを用いたモデルが、16倍の長さにまで対応しつつ性能を維持できることから、実世界応用におけるスケーラビリティと有効性が示された。本研究のコードは、https://github.com/bigai-nlco/VideoTGB にて公開されている。