il y a 4 jours

Rapport technique Kwai Keye-VL

Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang

Voir les détails de l'article View Code

Résumé

Bien que les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) démontrent des capacités remarquables sur les images statiques, ils échouent souvent à comprendre les vidéos de courte durée, riches en informations et dynamiques, un médium prédominant dans le paysage numérique actuel. Pour combler cette lacune, nous présentons Kwai Keye-VL, un modèle fondamental multimodal doté de 8 milliards de paramètres, conçu pour des performances de pointe dans la compréhension des vidéos courtes tout en maintenant des capacités robustes en vision-langue générale. Le développement de Keye-VL repose sur deux piliers essentiels : un ensemble de données massif et de haute qualité dépassant 600 milliards de jetons avec une forte emphase sur la vidéo, et une recette d'entraînement innovante. Cette recette comprend un processus d'pré-entraînement en quatre étapes pour une solide alignement vision-langue, suivi d'un processus post-entraînement méticuleux en deux phases. La première phase post-entraînement améliore les capacités fondamentales telles que le suivi des instructions, tandis que la deuxième phase se concentre sur l'stimulation du raisonnement avancé. Dans cette deuxième phase, une innovation clé est notre mélange de données « cold-start » à cinq modes, qui inclut des données « réflexion », « non-réflexion », « auto-réflexion », « réflexion avec image » et des données vidéo de haute qualité. Ce mélange enseigne au modèle quand et comment raisonner. Les étapes ultérieures d'apprentissage par renforcement (RL) et d'alignement renforcent davantage ces capacités de raisonnement et corrigent les comportements anormaux du modèle, tels que les sorties répétitives. Pour valider notre approche, nous menons des évaluations approfondies, montrant que Keye-VL obtient des résultats d'état de l'art sur les bancs d'essai publics vidéo et reste très compétitif sur les tâches basées sur des images générales (Figure 1). De plus, nous développons et mettons à disposition KC-MMBench, un nouveau banc d'essai adapté aux scénarios réels de vidéos courtes, où Keye-VL montre un avantage significatif.