Command Palette
Search for a command to run...
SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation
SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation
Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng
Résumé
La construction de grands ensembles de données pour la tâche de résolution des problèmes GitHub est cruciale pour l'entraînement et l'évaluation des capacités d'ingénierie logicielle des grands modèles linguistiques (LLMs). Cependant, le processus traditionnel de création de ces références est notoirement difficile et laborieux, en particulier lors des phases de configuration des environnements d'évaluation, de notation des résultats de tests et de validation des instances de tâches. Dans cet article, nous proposons SWE-Factory, un pipeline automatisé conçu pour relever ces défis. Pour aborder ces problèmes, notre pipeline intègre trois composants automatisés principaux.Premièrement, nous présentons SWE-Builder, un système multi-agents qui automatise la construction des environnements d'évaluation. Ce système utilise quatre agents spécialisés qui travaillent dans une boucle collaborative et itérative, et il tire parti d'une mémoire d'environnement pour améliorer l'efficacité. Deuxièmement, nous introduisons une méthode standardisée de notation basée sur les codes de sortie, éliminant ainsi la nécessité d'écrire manuellement des analyseurs personnalisés. Enfin, nous automatisons le processus de validation fail2pass en utilisant ces signaux fiables de codes de sortie.Des expériences menées sur 671 problèmes dans quatre langages de programmation montrent que notre pipeline peut construire efficacement des instances de tâches valides. Par exemple, avec GPT-4.1-mini, notre SWE-Builder construit 269 instances valides à un coût de 0,045 par instance ; avec Gemini-2.5-flash, il atteint des performances comparables au coût le plus bas de 0,024 par instance. Nous démontrons également que notre méthode de notation basée sur les codes de sortie atteint une précision de 100 % par rapport à l'inspection manuelle, et que notre validation automatisée fail2pass atteint une précision de 0,92 et un rappel de 1,00.Nous espérons que notre pipeline automatisé accélérera la collecte d'ensembles de données à grande échelle et haute qualité pour la résolution des problèmes GitHub, tant pour l'entraînement que pour l'évaluation. Notre code source et nos ensembles de données sont disponibles à l'adresse suivante : https://github.com/DeepSoftwareAnalytics/swe-factory.