HyperAIHyperAI

Command Palette

Search for a command to run...

Skywork-SWE: Enthüllung der Daten-Scaling-Gesetze für Software Engineering in LLMs

Zusammenfassung

Die Software Engineering (SWE) ist kürzlich als ein entscheidendes Testfeld fürnächster-Generation LLM-Agenten hervorgetreten, die in zwei wesentlichenDimensionen inherent fähig sein müssen: kontinuierliches iteratives Problemlösen (z.B., >50 Interaktionsrunden)und Auflösung von langfristigen Kontextabhängigkeiten (z.B., >32k Tokens). Dennoch bleibt der Datenaufbereitungsprozess in der SWE notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Daher sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub begrenzt. In diesem Zusammenhang schlagen wir eine inkrementelle, automatisierte Datenaufbereitungs Pipeline vor, die sowohl das Volumen als auch die Vielfalt der SWE-Datensätze systematisch erweitert. Unser Datensatz umfasst 10.169 realweltliche Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositorys, wobei jede Instanz durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungsbild für die automatische Validierung von Unit-Tests ergänzt wird. Wir haben sorgfältig über 8.000 erfolgreich laufzeitvalidierte Trainingspfade aus unserem vorgeschlagenen SWE-Datensatz zusammengestellt. Beim Feintuning des Skywork-SWE-Modells auf diesen Pfaden entdecken wir ein bemerkenswertes Phänomen der Datenvergrößerung: Die Leistung des trainierten Modells in Bezug auf Software Engineering-Fähigkeiten in LLMs verbessert sich weiterhin mit zunehmender Datenmenge und zeigt keine Anzeichen einer Sättigung. Besonders hervorzuheben ist, dass unser Skywork-SWE-Modell ohne Verifier oder mehrere Rollouts eine Genauigkeit von 38,0% bei pass@1 auf dem SWE-bench Verified Benchmark erreicht und damit einen neuen Stand der Technik (SOTA) unter den Qwen2.5-Coder-32B-basierten LLMs im Rahmen des OpenHands-Agenten darstellt. Darüber hinaus verbessert sich die Leistung durch die Anwendung von Testzeitvergrößerungstechniken auf 47,0% Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32 Milliarden Parametern übertrifft. Wir veröffentlichen das Skywork-SWE-32B-Modellcheckpoint, um zukünftige Forschungen zu beschleunigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skywork-SWE: Enthüllung der Daten-Scaling-Gesetze für Software Engineering in LLMs | Paper | HyperAI