Datum

vor 2 Jahren

Größe

1.65 MB

Organisation

Einführung in den Datensatz

Der Benchmark ist eine verbesserte Version (Teilmenge) des bestehenden SWE-Benchmarks, der dazu dient, die Fähigkeit von KI-Modellen, reale Softwareprobleme zu lösen, zuverlässiger zu bewerten. Um die Robustheit und Zuverlässigkeit von SWE-Bench zu verbessern, hat OpenAI eine manuelle Annotationskampagne gestartet, die von professionellen Softwareentwicklern durchgeführt wird, um jede Probe im SWE-Bench-Testsatz zu überprüfen und sicherzustellen, dass der Umfang des Komponententests angemessen und die Problembeschreibung klar und eindeutig ist. Zusammen mit den Autoren von SWE-Bench haben sie SWE-Bench Verified veröffentlicht: eine Teilmenge des ursprünglichen SWE-Bench-Testsatzes mit 500 Beispielen, die von menschlichen Kommentatoren verifiziert wurden. Diese Version ersetzt die ursprünglichen Test-Suiten SWE-Bench und SWE-Bench Lite. Beim SWE-Bench Verified löste GPT-4o 33,21 TP3T-Beispiele, während das leistungsstärkste Open-Source-Agenten-Framework Agentless seine Punktzahl auf 161 TP3T verdoppelte.

SWE-bench_Verified.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 240Gesamtdownloads 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden

Auf Discord diskutieren

Datum

vor 2 Jahren

Größe

1.65 MB

Organisation

Einführung in den Datensatz

SWE-bench_Verified.torrent

Seeding 1Wird heruntergeladen 0Abgeschlossen 240Gesamtdownloads 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

Zugehörige Datensätze

CL-bench Context Learning Evaluation Benchmark-Datensatz

vor 4 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor 6 Monaten

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor 6 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Einführung in den Datensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Einführung in den Datensatz

Zugehörige Datensätze

CL-bench Context Learning Evaluation Benchmark-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SWE-bench – Verifizierter Benchmark-Datensatz Zur Codegenerierung

Einführung in den Datensatz

Zugehörige Datensätze

CL-bench Context Learning Evaluation Benchmark-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

CL-bench Context Learning Evaluation Benchmark-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

CL-bench Context Learning Evaluation Benchmark-Datensatz

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

LongBench-Pro Long Context Comprehensive Evaluation Dataset