Rapport technique Qwen2

Ce rapport présente la série Qwen2, la dernière mise à jour de nos modèles de langage à grande échelle ainsi que de nos modèles multimodaux à grande échelle. Nous lançons une suite complète de modèles fondamentaux et ajustés par instruction, couvrant une plage de paramètres allant de 0,5 à 72 milliards, incluant des modèles à densité élevée ainsi qu’un modèle à Mélange d’Experts (Mixture-of-Experts). Le modèle Qwen2 dépasse la plupart des modèles précédents à poids ouverts, y compris son prédécesseur Qwen1.5, et affiche des performances compétitives par rapport aux modèles propriétaires sur divers benchmarks, dans les domaines de la compréhension du langage, de la génération, de la maîtrise multilingue, de la programmation, des mathématiques et du raisonnement.Le modèle phare, Qwen2-72B, démontre des performances remarquables : 84,2 sur MMLU, 37,9 sur GPQA, 64,6 sur HumanEval, 89,5 sur GSM8K et 82,4 sur BBH en tant que modèle de base. La version ajustée par instruction, Qwen2-72B-Instruct, atteint 9,1 sur MT-Bench, 48,1 sur Arena-Hard et 35,7 sur LiveCodeBench. En outre, Qwen2 fait preuve d’une robuste capacité multilingue, maîtrisant environ 30 langues, notamment l’anglais, le chinois, l’espagnol, le français, l’allemand, l’arabe, le russe, le coréen, le japonais, le thaï, le vietnamien, et bien d’autres, soulignant ainsi sa polyvalence et son ample portée mondiale.Afin de stimuler l’innovation et l’accessibilité au sein de la communauté, nous mettons publiquement à disposition les poids du modèle Qwen2 sur Hugging Face¹ et ModelScope², ainsi que les matériaux complémentaires, y compris du code d'exemple, sur GitHub³. Ces plateformes proposent également des ressources relatives à la quantification, au fine-tuning et au déploiement, facilitant ainsi une large gamme d’applications et de recherches.