il y a 13 jours

DeepSeek-Coder : Lorsque le Modèle Linguistique Énorme Rencontre la Programmation — L'Émergence de l'Intelligence du Code

Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang

Voir les détails de l'article

DeepSeek-Coder : Lorsque le Modèle Linguistique Énorme Rencontre la Programmation — L'Émergence de l'Intelligence du Code

Résumé

Le développement rapide des grands modèles linguistiques a révolutionné l’intelligence du code en ingénierie logicielle. Toutefois, la prédominance des modèles à code fermé a limité les recherches et développements approfondis. Pour remédier à ce problème, nous présentons la série DeepSeek-Coder, une gamme de modèles open-source pour le traitement du code, dont les tailles varient de 1,3 milliard à 33 milliards de paramètres, entraînés de zéro sur 2 billions de tokens. Ces modèles sont pré-entraînés sur un corpus de code de qualité élevée, au niveau du projet, et utilisent une tâche de complétion de texte avec une fenêtre de 16 000 tokens afin d’améliorer la génération et la complétion de code. Nos évaluations étendues démontrent que DeepSeek-Coder atteint des performances de pointe parmi les modèles open-source sur plusieurs benchmarks, tout en surpassant des modèles à code fermé existants tels que Codex et GPT-3.5. En outre, les modèles DeepSeek-Coder sont publiés sous une licence permissive, autorisant à la fois des utilisations à des fins de recherche et commerciales sans restriction.