HyperAIHyperAI

Command Palette

Search for a command to run...

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Datum

vor einem Jahr

Größe

1.65 MB

Organisation

OpenAI
Stanford Universität

Einführung in den Datensatz

Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten.

Um die Robustheit und Zuverlässigkeit von SWE-Bench zu verbessern, hat OpenAI eine manuelle Annotationskampagne gestartet, die von professionellen Softwareentwicklern durchgeführt wird, um jede Probe im SWE-Bench-Testsatz zu überprüfen und sicherzustellen, dass der Umfang des Komponententests angemessen und die Problembeschreibung klar und eindeutig ist.

Zusammen mit den Autoren von SWE-Bench haben sie SWE-Bench Verified veröffentlicht: eine Teilmenge des ursprünglichen SWE-Bench-Testsatzes mit 500 Beispielen, die von menschlichen Kommentatoren verifiziert wurden. Diese Version ersetzt die ursprünglichen Test-Suiten SWE-Bench und SWE-Bench Lite.

Beim SWE-Bench Verified löste GPT-4o 33,21 TP3T-Beispiele, während das leistungsstärkste Open-Source-Agenten-Framework Agentless seine Punktzahl auf 161 TP3T verdoppelte.

SWE-bench_Verified.torrent
Seeding 2Wird heruntergeladen 0Abgeschlossen 239Gesamtdownloads 335
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp