SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung
Datum
Größe
Veröffentlichungs-URL
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
Einführung in den Datensatz
Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten.
Um die Robustheit und Zuverlässigkeit von SWE-Bench zu verbessern, hat OpenAI eine manuelle Annotationskampagne gestartet, die von professionellen Softwareentwicklern durchgeführt wird, um jede Probe im SWE-Bench-Testsatz zu überprüfen und sicherzustellen, dass der Umfang des Komponententests angemessen und die Problembeschreibung klar und eindeutig ist.
Zusammen mit den Autoren von SWE-Bench haben sie SWE-Bench Verified veröffentlicht: eine Teilmenge des ursprünglichen SWE-Bench-Testsatzes mit 500 Beispielen, die von menschlichen Kommentatoren verifiziert wurden. Diese Version ersetzt die ursprünglichen Test-Suiten SWE-Bench und SWE-Bench Lite.
Beim SWE-Bench Verified löste GPT-4o 33,21 TP3T-Beispiele, während das leistungsstärkste Open-Source-Agenten-Framework Agentless seine Punktzahl auf 161 TP3T verdoppelte.