HyperAI

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Introduction à l'ensemble de données

Le benchmark est une version améliorée (sous-ensemble) du SWE-bench existant, conçu pour évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels du monde réel.

Pour améliorer la robustesse et la fiabilité de SWE-bench, OpenAI a lancé une campagne d'annotation manuelle menée par des développeurs de logiciels professionnels pour examiner chaque échantillon de l'ensemble de tests SWE-bench afin de garantir que la portée du test unitaire est appropriée et que la description du problème est claire et sans ambiguïté.

En collaboration avec les auteurs de SWE-bench, ils ont publié SWE-bench Verified : un sous-ensemble de l'ensemble de tests SWE-bench original contenant 500 échantillons qui ont été vérifiés par des annotateurs humains. Cette version remplace les suites de tests originales SWE-bench et SWE-bench Lite.

Sur SWE-bench Verified, GPT-4o a résolu 33,21 échantillons TP3T, tandis que le framework d'agent open source le plus performant, Agentless, a doublé son score à 16%.

Ensemble De Données De Référence Pour l'évaluation De La Génération De Code Vérifié SWE-bench

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Introduction à l'ensemble de données

Construire l'IA avec l'IA

Hyper Newsletters