Command Palette
Search for a command to run...
LongVILA:長時間動画向けにスケーリングされた長文脈視覚言語モデル
LongVILA:長時間動画向けにスケーリングされた長文脈視覚言語モデル
概要
長文脈能力はマルチモーダル基盤モデルにおいて極めて重要である。本研究では、システム、モデル訓練、データセット開発を含む、長文脈ビジョン・言語モデルに対するフルスタックソリューションであるLongVILAを紹介する。システム面では、長文脈の学習および推論を可能にする、世界初のマルチモーダルシーケンス並列化(Multi-Modal Sequence Parallelism, MM-SP)システムを提案する。このシステムにより、256 GPUを用いて最大200万トークンの文脈長での学習が実現可能となり、2Mの文脈長を扱える。MM-SPは効率性も高く、テキストのみの設定ではRing-Style Sequence Parallelismに比べ2.1倍~5.7倍、Megatron-LMに比べ1.1倍~1.4倍の高速性を達成している。さらに、Hugging Face Transformersとシームレスに統合可能である。モデル訓練の面では、アライメント、事前学習、文脈の拡張、長短統合型の教師あり微調整を含む五段階パイプラインを提案する。データセット面では、多段階の訓練プロセスを支えるため、大規模な視覚言語事前学習データセットおよび長時間動画の指示追従データセットを丁寧に構築した。このフルスタックソリューションにより、VILAの実現可能なフレーム数が128倍(8フレームから1024フレームへ)拡張され、長時間動画のキャプション生成スコアは2.00から3.26へと向上(1.6倍)し、1400フレーム(274,000の文脈長)の動画における「針の山の中の針」タスクで99.5%の精度を達成した。また、LongVILA-8Bは、VideoMMEベンチマークにおいて、動画フレーム数が増加するにつれて長時間動画処理の性能が一貫して向上することを示した。