HyperAI
Back to Headlines

DeepSWE : Un Agent de Codage Open Source Formé par Apprentissage par Renforcement Atteint 59% de Précision sur SWEBench

il y a 2 jours

Together AI a mis en ligne DeepSWE, un agent d'ingénierie logicielle de pointe entièrement open source, formé exclusivement par apprentissage par renforcement (AR). Cette innovation repose sur le modèle langagier Qwen3-32B et atteint une précision de 59% sur le benchmark SWEBench-Verified, avec un score de 42,2% pour le Pass@1, ce qui place DeepSWE en tête des modèles à poids ouverts. Ce lancement marque un tournant significatif pour Together AI, marquant la transition des pipelines de préformation traditionnels vers la création d'agents autonomes qui s'améliorent en continu grâce aux retours du monde réel. Apprentissage par Renforcement : Une Nouvelle Approche Pour la Génération de Code DeepSWE est l'aboutissement d'un entraînement postérieur du modèle de base Qwen3-32B, effectué à l'aide du cadre AR modulaire rLLM développé par Agentica. Contrairement aux méthodes classiques de fine-tuning supervisé, rLLM permet aux agents de s'adapter à des flux de travail réels en tirant parti de leurs expériences. DeepSWE a été spécifiquement formé pour résoudre des tâches complexes d'ingénierie logicielle via un cycle de feedback, plutôt que par l'utilisation de jeux de données statiques. Le processus de formation intègre le dataset R2EGym d'Agentica, une référence pour le développement d'agents d'ingénierie logicielle formés par AR. Ce cadre de formation se concentre sur l'amélioration des modèles langagiers en fixant des objectifs orientés action, comme la correction de bogues, la complétion de fonctions et l'édition de code. Cette approche aligne DeepSWE avec les méthodes itératives et d'apprentissage continue des ingénieurs humains. Performances et Capacités Sur SWEBench-Verified, le benchmark le plus exigeant pour les agents d'ingénierie logicielle, DeepSWE obtient 59% de précision grâce à une évaluation à l'échelle. Ce score surpasse largement ceux des précédents modèles à poids ouverts. En ce qui concerne le Pass@1, une mesure de la probabilité que l'agent résolve un problème correctement du premier coup, DeepSWE atteint un taux impressionnant de 42,2%. Ces résultats soulignent l'efficacité de l'AR dans l'amélioration du comportement autonome, particulièrement utile dans des domaines nécessitant une réflexion itérative et des sorties précises, comme la synthèse de code. L'architecture héritée de Qwen3-32B permet à DeepSWE de s'étendre efficacement tout en restant appropriée pour des applications dans le monde réel. Transparence et Reproductibilité L'un des points forts de cette publication est sa totale transparence. Non seulement le modèle DeepSWE est entièrement open source, mais aussi les recettes de formation complètes, y compris le cadre rLLM, le dataset R2EGym et les scripts de configuration. Cette démarche encourage la reproductibilité et invite la communauté de recherche et de développement à s'impliquer activement, sans restrictions, dans l'amélioration et l'extension de DeepSWE. Les développeurs peuvent accéder à DeepSWE et à rLLM via les liens suivants : GitHub DeepSWE Documentations et ressources supplémentaires Évolution Philosophique et Pratique DeepSWE symbolise une évolution radicale, tant philosophique que pratique : de la construction de modèles qui raisonnent sur le langage à la création d'agents qui apprennent par interaction. Les modèles langagiers traditionnels ont démontré des capacités de raisonnement solides mais manquent souvent d'adaptabilité aux retours ou d'amélioration progressive. L'AR permet non seulement une performance optimale dès le lancement mais also una amélioration continue, en s'adaptant à de nouvelles distributions de problèmes et à de nouveaux domaines. Cette approche facilite également le déploiement local. Étant pleinement open source et modulaire, DeepSWE peut être étendu et réentraîné pour des cas d'utilisation spécifiques à une organisation. Les développeurs et les chercheurs peuvent créer leurs propres agents basés sur DeepSWE en utilisant rLLM pour servir des domaines variés, tels que la navigation web, la robotics, ou l'assistance à la recherche. Conclusion DeepSWE est une étape importante dans l'évolution de l'IA générative pour l'ingénierie logicielle. En appliquant l'AR à des modèles langagiers de grande taille comme Qwen3-32B et en libérant toute l'infrastructure de formation, Together AI ouvre la voie à une nouvelle ère où les agents ne sont pas seulement préformés et déployés, mais également formés et améliorés en continu. Ce passage de la compréhension du langage à une agence orientée action a des implications majeures dans la programmation, l'automatisation et la conception de systèmes intelligents. Tous nos remerciements vont aux chercheurs ayant participé à ce projet. Suivez-nous sur Twitter et rejoignez notre communauté Reddit de plus de 100 000 membres pour rester informé des derniers développements en apprenant et intelligence artificielle.

Related Links