Kwai Keye-VL 技術報告書

マルチモーダル大規模言語モデル(MLLMs)は静止画像において優れた能力を示していますが、今日のデジタル環境で主流となっている動的で情報密度の高いショートフォームビデオの理解ではしばしば不足しています。このギャップを埋めるために、我々はKwai Keye-VLを導入します。これは80億パラメータを持つマルチモーダル基盤モデルであり、ショートビデオ理解における最先端の性能を達成しつつ、一般的なビジョン-言語能力も維持するように設計されています。Keye-VLの開発は、2つの主要な柱に依存しています。1つ目は6000億トークンを超える大規模かつ高品質なデータセットで、特にビデオに重点が置かれています。2つ目は革新的な学習レシピです。このレシピには、堅固なビジョン-言語アライメントを確立するための4段階の事前学習プロセスと、その後に行われる慎重な2段階の後学習プロセスが含まれています。最初の後学習ステージでは指示への従順性などの基本的な能力を強化し、2番目のステージでは高度な推論能力に焦点を当てます。この2番目のステージにおいて重要な革新点は、「思考」「非思考」「自動思考」「画像付き思考」および高品質ビデオデータからなる5モード「コールドスタート」データミックスです。このミックスにより、モデルはいつどのように推論を行うかを決定する能力が教えられます。その後の強化学習(RL)とアライメントステップでは、これらの推論能力がさらに向上し、反復出力などの異常なモデル行動が修正されます。我々の手法の有効性を検証するために、広範囲にわたる評価を行いました。その結果、Keye-VLは公開されたビデオベンチマークで最先端の成果を達成し、一般的な画像ベースタスクでも非常に競争力があることが示されました(図1)。さらに、我々は実世界のショートビデオシナリオ向けに新しいベンチマークKC-MMBenchを開発し公開しました。ここでKeye-VLは著しい優位性を見せています。