HyperAI

Ensemble De Données De Référence Pour L'évaluation De La Génération De Code Vérifié SWE-bench

Date

il y a 8 mois

Taille

1.65 MB

Organisation

OpenAI
Université de Stanford

URL de publication

huggingface.co

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Introduction à l'ensemble de données

Le benchmark est une version améliorée (sous-ensemble) du SWE-bench existant, conçu pour évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels du monde réel.

Pour améliorer la robustesse et la fiabilité de SWE-bench, OpenAI a lancé une campagne d'annotation manuelle menée par des développeurs de logiciels professionnels pour examiner chaque échantillon de l'ensemble de tests SWE-bench afin de garantir que la portée du test unitaire est appropriée et que la description du problème est claire et sans ambiguïté.

En collaboration avec les auteurs de SWE-bench, ils ont publié SWE-bench Verified : un sous-ensemble de l'ensemble de tests SWE-bench original contenant 500 échantillons qui ont été vérifiés par des annotateurs humains. Cette version remplace les suites de tests originales SWE-bench et SWE-bench Lite.

Sur SWE-bench Verified, GPT-4o a résolu 33,21 échantillons TP3T, tandis que le framework d'agent open source le plus performant, Agentless, a doublé son score à 16%.

SWE-bench_Verified.torrent
Partage 2Téléchargement 0Terminés 103Téléchargements totaux 106
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB