Rapport technique Kwai Keye-VL

Bien que les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) démontrent des capacités remarquables sur les images statiques, ils échouent souvent à comprendre les vidéos de courte durée, riches en informations et dynamiques, un médium prédominant dans le paysage numérique actuel. Pour combler cette lacune, nous présentons Kwai Keye-VL, un modèle fondamental multimodal doté de 8 milliards de paramètres, conçu pour des performances de pointe dans la compréhension des vidéos courtes tout en maintenant des capacités robustes en vision-langue générale. Le développement de Keye-VL repose sur deux piliers essentiels : un ensemble de données massif et de haute qualité dépassant 600 milliards de jetons avec une forte emphase sur la vidéo, et une recette d'entraînement innovante. Cette recette comprend un processus d'pré-entraînement en quatre étapes pour une solide alignement vision-langue, suivi d'un processus post-entraînement méticuleux en deux phases. La première phase post-entraînement améliore les capacités fondamentales telles que le suivi des instructions, tandis que la deuxième phase se concentre sur l'stimulation du raisonnement avancé. Dans cette deuxième phase, une innovation clé est notre mélange de données « cold-start » à cinq modes, qui inclut des données « réflexion », « non-réflexion », « auto-réflexion », « réflexion avec image » et des données vidéo de haute qualité. Ce mélange enseigne au modèle quand et comment raisonner. Les étapes ultérieures d'apprentissage par renforcement (RL) et d'alignement renforcent davantage ces capacités de raisonnement et corrigent les comportements anormaux du modèle, tels que les sorties répétitives. Pour valider notre approche, nous menons des évaluations approfondies, montrant que Keye-VL obtient des résultats d'état de l'art sur les bancs d'essai publics vidéo et reste très compétitif sur les tâches basées sur des images générales (Figure 1). De plus, nous développons et mettons à disposition KC-MMBench, un nouveau banc d'essai adapté aux scénarios réels de vidéos courtes, où Keye-VL montre un avantage significatif.