Skywork-SWE: Enthüllung der Daten-Scaling-Gesetze für Software Engineering in LLMs

Die Software Engineering (SWE) ist kürzlich als ein entscheidendes Testfeld fürnächster-Generation LLM-Agenten hervorgetreten, die in zwei wesentlichenDimensionen inherent fähig sein müssen: kontinuierliches iteratives Problemlösen (z.B., >50 Interaktionsrunden)und Auflösung von langfristigen Kontextabhängigkeiten (z.B., >32k Tokens). Dennoch bleibt der Datenaufbereitungsprozess in der SWE notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur Ausführung und Validierung von Unit-Tests angewiesen ist. Daher sind die meisten bestehenden Datensätze auf nur wenige tausend Instanzen aus GitHub begrenzt. In diesem Zusammenhang schlagen wir eine inkrementelle, automatisierte Datenaufbereitungs Pipeline vor, die sowohl das Volumen als auch die Vielfalt der SWE-Datensätze systematisch erweitert. Unser Datensatz umfasst 10.169 realweltliche Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositorys, wobei jede Instanz durch eine in natürlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungsbild für die automatische Validierung von Unit-Tests ergänzt wird. Wir haben sorgfältig über 8.000 erfolgreich laufzeitvalidierte Trainingspfade aus unserem vorgeschlagenen SWE-Datensatz zusammengestellt. Beim Feintuning des Skywork-SWE-Modells auf diesen Pfaden entdecken wir ein bemerkenswertes Phänomen der Datenvergrößerung: Die Leistung des trainierten Modells in Bezug auf Software Engineering-Fähigkeiten in LLMs verbessert sich weiterhin mit zunehmender Datenmenge und zeigt keine Anzeichen einer Sättigung. Besonders hervorzuheben ist, dass unser Skywork-SWE-Modell ohne Verifier oder mehrere Rollouts eine Genauigkeit von 38,0% bei pass@1 auf dem SWE-bench Verified Benchmark erreicht und damit einen neuen Stand der Technik (SOTA) unter den Qwen2.5-Coder-32B-basierten LLMs im Rahmen des OpenHands-Agenten darstellt. Darüber hinaus verbessert sich die Leistung durch die Anwendung von Testzeitvergrößerungstechniken auf 47,0% Genauigkeit, was die bisherigen SOTA-Ergebnisse für Modelle mit weniger als 32 Milliarden Parametern übertrifft. Wir veröffentlichen das Skywork-SWE-32B-Modellcheckpoint, um zukünftige Forschungen zu beschleunigen.