HyperAIHyperAI

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Datum

vor einem Jahr

Größe

1.65 MB

Organisation

OpenAI
Stanford Universität

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Einführung in den Datensatz

Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten.

Um die Robustheit und Zuverlässigkeit von SWE-Bench zu verbessern, hat OpenAI eine manuelle Annotationskampagne gestartet, die von professionellen Softwareentwicklern durchgeführt wird, um jede Probe im SWE-Bench-Testsatz zu überprüfen und sicherzustellen, dass der Umfang des Komponententests angemessen und die Problembeschreibung klar und eindeutig ist.

Zusammen mit den Autoren von SWE-Bench haben sie SWE-Bench Verified veröffentlicht: eine Teilmenge des ursprünglichen SWE-Bench-Testsatzes mit 500 Beispielen, die von menschlichen Kommentatoren verifiziert wurden. Diese Version ersetzt die ursprünglichen Test-Suiten SWE-Bench und SWE-Bench Lite.

Beim SWE-Bench Verified löste GPT-4o 33,21 TP3T-Beispiele, während das leistungsstärkste Open-Source-Agenten-Framework Agentless seine Punktzahl auf 161 TP3T verdoppelte.

SWE-bench_Verified.torrent
Seeding 1Herunterladen 0Abgeschlossen 227Gesamtdownloads 277
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung | Datensätze | HyperAI