HyperAI
il y a 14 jours

Skywork-SWE : Révéler les lois d'échelle des données pour l'ingénierie logicielle dans les LLMs

Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
Skywork-SWE : Révéler les lois d'échelle des données pour l'ingénierie logicielle dans les LLMs
Résumé

L'ingénierie logicielle (SWE) est récemment apparue comme un terrain d'essai crucial pour les agents de modèles linguistiques de nouvelle génération (LLM), exigeant des capacités inhérentes dans deux dimensions critiques : la résolution de problèmes itératifs soutenue (par exemple, plus de 50 tours d'interaction) et la gestion des dépendances à long terme (par exemple, plus de 32k tokens). Cependant, le processus de curation des données en SWE reste notoirement fastidieux et chronophage, car il repose largement sur l'annotation manuelle pour le filtrage des fichiers de code et la configuration d'environnements d'exécution dédiés pour exécuter et valider les tests unitaires. Par conséquent, la plupart des jeux de données existants se limitent à quelques milliers d'instances issues de GitHub. À cet égard, nous proposons une pipeline de curation des données incrémentielle et automatisée qui élargit systématiquement tant le volume que la diversité des jeux de données SWE. Notre jeu de données comprend 10 169 instances réelles de tâches Python provenant de 2 531 dépôts GitHub distincts, chacune accompagnée d'une tâche spécifiée en langage naturel et d'une image d'environnement d'exécution dédiée pour la validation automatisée des tests unitaires. Nous avons soigneusement curaté plus de 8 000 trajectoires d'apprentissage validées en temps d'exécution à partir de notre jeu de données SWE proposé. Lors du réglage fin du modèle Skywork-SWE sur ces trajectoires, nous découvrons un phénomène remarquable d'échelle des données : les performances du modèle entraîné en termes de capacités en ingénierie logicielle pour les LLM continuent d'améliorer avec l'augmentation du volume des données, sans montrer aucun signe de saturation. Notamment, notre modèle Skywork-SWE atteint une précision pass@1 de 38,0 % sur le benchmark SWE-bench Verified sans utiliser de vérificateurs ou plusieurs exécutions, établissant ainsi un nouveau niveau état-de-l'art (SOTA) parmi les LLM basés sur Qwen2.5-Coder-32B construits sur le cadre OpenHands agent. De plus, grâce à l'intégration de techniques d'échelle en temps de test, les performances s'améliorent encore jusqu'à une précision de 47,0 %, surpassant les résultats SOTA précédents pour les modèles avec moins de 32 milliards de paramètres. Nous mettons à disposition le pointeur du modèle Skywork-SWE-32B afin d'accélérer les recherches futures.