2ヶ月前

ST-LLM: 大規模言語モデルは効果的な時間学習者である

Ruyang Liu; Chen Li; Haoran Tang; Yixiao Ge; Ying Shan; Ge Li

要約

大規模言語モデル（LLMs）は、テキストの理解と生成において驚異的な能力を示しており、これによりビデオLLMへの研究が進み、ビデオレベルでの人間-AI対話を促進しようとしています。しかし、ビデオベースの対話システムにおいて、ビデオを効果的に符号化し理解する方法はまだ解決されていません。本論文では、単純ながら未探索の問いについて調査を行いました：すべての空間時間トークンをLLMに直接入力することは可能でしょうか？この問いに対する答えは意外にも肯定的で、このシンプルなアプローチがビデオ理解における大幅な改善をもたらすことが確認されました。これを基に、空間時間系列モデリング機能を内蔵した効果的なビデオ-LLMの基準モデルであるST-LLMを提案します。さらに、LLM内の非圧縮ビデオトークンによって引き起こされる負荷と安定性の問題に対処するために、カスタマイズされた学習目標を持つ動的マスキング戦略を開発しました。特に長いビデオに対しては、効率性と有効性のバランスを取るためのグローバル-ローカル入力モジュールも設計しています。その結果、我々はLLMを用いて高性能な空間時間モデリングを行いながら、効率性と安定性を維持することに成功しました。広範な実験結果が当手法の有効性を証明しており、より簡潔なモデルと学習パイプラインを通じてST-LLMはVideoChatGPT-BenchおよびMVBenchで新しい最先端の結果を達成しています。コードはhttps://github.com/TencentARC/ST-LLM から利用可能です。