il y a 8 mois

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

La construction de grands ensembles de données pour la tâche de résolution des problèmes GitHub est cruciale pour l'entraînement et l'évaluation des capacités d'ingénierie logicielle des grands modèles linguistiques (LLMs). Cependant, le processus traditionnel de création de ces références est notoirement difficile et laborieux, en particulier lors des phases de configuration des environnements d'évaluation, de notation des résultats de tests et de validation des instances de tâches. Dans cet article, nous proposons SWE-Factory, un pipeline automatisé conçu pour relever ces défis. Pour aborder ces problèmes, notre pipeline intègre trois composants automatisés principaux.Premièrement, nous présentons SWE-Builder, un système multi-agents qui automatise la construction des environnements d'évaluation. Ce système utilise quatre agents spécialisés qui travaillent dans une boucle collaborative et itérative, et il tire parti d'une mémoire d'environnement pour améliorer l'efficacité. Deuxièmement, nous introduisons une méthode standardisée de notation basée sur les codes de sortie, éliminant ainsi la nécessité d'écrire manuellement des analyseurs personnalisés. Enfin, nous automatisons le processus de validation fail2pass en utilisant ces signaux fiables de codes de sortie.Des expériences menées sur 671 problèmes dans quatre langages de programmation montrent que notre pipeline peut construire efficacement des instances de tâches valides. Par exemple, avec GPT-4.1-mini, notre SWE-Builder construit 269 instances valides à un coût de 0,045 par instance ; avec Gemini-2.5-flash, il atteint des performances comparables au coût le plus bas de 0,024 par instance. Nous démontrons également que notre méthode de notation basée sur les codes de sortie atteint une précision de 100 % par rapport à l'inspection manuelle, et que notre validation automatisée fail2pass atteint une précision de 0,92 et un rappel de 1,00.Nous espérons que notre pipeline automatisé accélérera la collecte d'ensembles de données à grande échelle et haute qualité pour la résolution des problèmes GitHub, tant pour l'entraînement que pour l'évaluation. Notre code source et nos ensembles de données sont disponibles à l'adresse suivante : https://github.com/DeepSoftwareAnalytics/swe-factory.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Traitement Du Langage Naturel

Tâche

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Traitement Du Langage Naturel

Tâche

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SWE-Factory : Votre usine automatisée pour les données d'entraînement de résolution des problèmes et les benchmarks d'évaluation

Lianghong Guo Yanlin Wang Caihua Li Pengyu Yang Jiachi Chen Wei Tao Yingtian Zou Duyu Tang Zibin Zheng

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters