2ヶ月前
言語から視覚への長期コンテキスト転送
Peiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu

要約
ビデオシーケンスは貴重な時間情報を提供しますが、既存の大型マルチモーダルモデル(LMMs)は非常に長いビデオの理解において不足しています。多くの研究では、視覚リサンプラーを使用して視覚トークンの数を削減することでこの問題に対処しています。一方、本論文では言語モデルの観点からこの問題に取り組みます。単純に言語バックボーンのコンテキスト長を外挿することにより、LMMsはビデオ学習なしで視覚トークンの数を桁違いに増やすことができます。この現象をロングコンテキスト転送と呼び、その特性を慎重に検証します。LMMsがビジョンモダリティにおける長いコンテキストへの汎化能力を効果的に測定するために、言語モデルのNIAHテストに着想を得た完全に合成された長期ビジョンベンチマークV-NIAH(Visual Needle-In-A-Haystack)を開発しました。提案するロングビデオアシスタント(LongVA)は追加の複雑さなく2000フレームまたは20万以上の視覚トークンを処理できます。延長されたコンテキスト長により、LongVAは7Bスケールのモデルの中でVideo-MMEにおいて最先端の性能を達成します。これはより多くの入力フレームを高密度にサンプリングすることで実現されています。当該研究はオープンソース化されており、https://github.com/EvolvingLMMs-Lab/LongVA で公開されています。