Ensemble De Données De Référence Pour L'évaluation De La Génération De Code Vérifié SWE-bench
Date
Taille
URL de publication
* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
Introduction à l'ensemble de données
Le benchmark est une version améliorée (sous-ensemble) du SWE-bench existant, conçu pour évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels du monde réel.
Pour améliorer la robustesse et la fiabilité de SWE-bench, OpenAI a lancé une campagne d'annotation manuelle menée par des développeurs de logiciels professionnels pour examiner chaque échantillon de l'ensemble de tests SWE-bench afin de garantir que la portée du test unitaire est appropriée et que la description du problème est claire et sans ambiguïté.
En collaboration avec les auteurs de SWE-bench, ils ont publié SWE-bench Verified : un sous-ensemble de l'ensemble de tests SWE-bench original contenant 500 échantillons qui ont été vérifiés par des annotateurs humains. Cette version remplace les suites de tests originales SWE-bench et SWE-bench Lite.
Sur SWE-bench Verified, GPT-4o a résolu 33,21 échantillons TP3T, tandis que le framework d'agent open source le plus performant, Agentless, a doublé son score à 16%.