HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données De Référence Pour l'évaluation De La Génération De Code Vérifié SWE-bench

Introduction à l'ensemble de données

Le benchmark est une version améliorée (sous-ensemble) du SWE-bench existant, conçu pour évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels du monde réel.

Pour améliorer la robustesse et la fiabilité de SWE-bench, OpenAI a lancé une campagne d'annotation manuelle menée par des développeurs de logiciels professionnels pour examiner chaque échantillon de l'ensemble de tests SWE-bench afin de garantir que la portée du test unitaire est appropriée et que la description du problème est claire et sans ambiguïté.

En collaboration avec les auteurs de SWE-bench, ils ont publié SWE-bench Verified : un sous-ensemble de l'ensemble de tests SWE-bench original contenant 500 échantillons qui ont été vérifiés par des annotateurs humains. Cette version remplace les suites de tests originales SWE-bench et SWE-bench Lite.

Sur SWE-bench Verified, GPT-4o a résolu 33,21 échantillons TP3T, tandis que le framework d'agent open source le plus performant, Agentless, a doublé son score à 16%.

SWE-bench_Verified.torrent
Seeding 2Téléchargement 0Terminé 235Téléchargements totaux 317
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.

Co-codage avec IA
GPU prêts à l'emploi
Meilleurs prix

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp