2ヶ月前
LongVILA: 長尺ビデオ向けの長文コンテキスト視覚言語モデルのスケーリング
Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han

要約
長文対応能力はマルチモーダル基盤モデルにとって重要です。本稿では、長文対応のビジョン言語モデル向けの包括的なソリューションであるLongVILAを紹介します。このソリューションにはシステム、モデル訓練、データセット開発が含まれています。システム面では、長文対応の訓練と推論を可能にする最初のマルチモーダルシーケンス並列処理(MM-SP)システムを導入します。これにより256 GPUを使用して2Mコンテキスト長の訓練が可能となります。MM-SPは効率的であり、テキストのみの設定ではリングスタイルシーケンス並列処理に比べて2.1倍から5.7倍速く、Megatron-LMに比べて1.1倍から1.4倍速い性能を示しています。さらに、Hugging Face Transformersとのシームレスな統合も実現しています。モデル訓練については、アライメント、事前学習、コンテキスト拡張、および長短間接教師あり微調整からなる5段階パイプラインを提案します。データセット面では、多段階訓練プロセスをサポートするための大規模な視覚言語事前学習データセットと長いビデオ指示追従データセットを慎重に構築しました。この包括的なソリューションにより、VILAの実行可能なフレーム数が128倍(8フレームから1024フレーム)に拡大し、長いビデオキャプションスコアが2.00から3.26(1.6倍)に向上しました。また、1400フレーム(274kコンテキスト長)のビデオにおいて針を見つける精度99.5%を達成しています。LongVILA-8Bは、VideoMMEベンチマークにおいてビデオフレーム数が増加するにつれて一貫した性能向上を示しており、長いビデオでの処理能力が優れています。