HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Einführung in den Datensatz

Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten.

Um die Robustheit und Zuverlässigkeit von SWE-Bench zu verbessern, hat OpenAI eine manuelle Annotationskampagne gestartet, die von professionellen Softwareentwicklern durchgeführt wird, um jede Probe im SWE-Bench-Testsatz zu überprüfen und sicherzustellen, dass der Umfang des Komponententests angemessen und die Problembeschreibung klar und eindeutig ist.

Zusammen mit den Autoren von SWE-Bench haben sie SWE-Bench Verified veröffentlicht: eine Teilmenge des ursprünglichen SWE-Bench-Testsatzes mit 500 Beispielen, die von menschlichen Kommentatoren verifiziert wurden. Diese Version ersetzt die ursprünglichen Test-Suiten SWE-Bench und SWE-Bench Lite.

Beim SWE-Bench Verified löste GPT-4o 33,21 TP3T-Beispiele, während das leistungsstärkste Open-Source-Agenten-Framework Agentless seine Punktzahl auf 161 TP3T verdoppelte.

SWE-bench_Verified.torrent
Seeding 2Wird heruntergeladen 0Abgeschlossen 235Gesamte Downloads 317
  • SWE-bench_Verified/
    • README.md
      1.68 KB
    • README.txt
      3.37 KB
      • data/
        • SWE-bench_Verified.zip
          1.65 MB

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-Co-Programmierung
Einsatzbereite GPUs
Bestpreis

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp