Command Palette
Search for a command to run...
StarCoder 2 et The Stack v2 : La Nouvelle Génération
StarCoder 2 et The Stack v2 : La Nouvelle Génération
Résumé
Le projet BigCode, une collaboration scientifique ouverte axée sur le développement responsable des grands modèles linguistiques pour le code (Code LLM), présente StarCoder2. En partenariat avec Software Heritage (SWH), nous avons construit The Stack v2 sur la base du patrimoine numérique de leur archive de code source. En complément des dépôts SWH couvrant 619 langages de programmation, nous avons soigneusement sélectionné d'autres sources de données de haute qualité, telles que les pull requests GitHub, les notebooks Kaggle et la documentation de code. Ce processus a abouti à un ensemble d'entraînement quatre fois plus volumineux que le premier jeu de données StarCoder. Nous avons entraîné les modèles StarCoder2 de 3B, 7B et 15B paramètres sur 3,3 à 4,3 billions de tokens, puis les avons évalués de manière exhaustive sur un ensemble complet de benchmarks dédiés aux Code LLM. Nos résultats montrent que notre modèle de petite taille, StarCoder2-3B, dépasse les autres Code LLM de taille similaire sur la majorité des benchmarks, et même le modèle StarCoderBase-15B. Quant à notre modèle de grande taille, StarCoder2-15B, il surpasse significativement les autres modèles de taille comparable. En outre, il égale ou dépasse CodeLlama-34B, un modèle plus du double de sa taille. Bien que DeepSeekCoder-33B soit le meilleur modèle en termes de complétion de code pour les langues à forte ressource, nous constatons que StarCoder2-15B le dépasse sur les benchmarks de raisonnement mathématique et de raisonnement sur le code, ainsi que sur plusieurs langues à faible ressource. Nous mettons les poids du modèle à disposition sous licence OpenRAIL, et assurons une transparence totale concernant les données d'entraînement en publiant les identifiants persistants Software Heritage (SWHIDs) des données de code source.