SWE-Factory: Ihre automatisierte Fabrik für Trainingsdaten zur Lösung von Problemen und Bewertungsbenchmarks

Die Erstellung umfangreicher Datensätze für die Aufgabe der Lösung von GitHub-Issues ist entscheidend sowohl für das Training als auch für die Bewertung der Softwareentwicklungsfähigkeiten großer Sprachmodelle (LLMs). Allerdings ist der traditionelle Prozess zur Erstellung solcher Benchmarks bekanntermaßen herausfordernd und arbeitsintensiv, insbesondere in den Phasen der Einrichtung von Evaluationsumgebungen, der Bewertung von Testergebnissen und der Validierung von Aufgabeninstanzen. In dieser Arbeit schlagen wir SWE-Factory vor, eine automatisierte Pipeline, die diese Herausforderungen angeht. Um diese Probleme zu lösen, integriert unsere Pipeline drei zentrale automatisierte Komponenten.Erstens führen wir SWE-Builder ein, ein Mehragentensystem, das die Automatisierung der Einrichtung von Evaluationsumgebungen ermöglicht. Dieses System setzt vier spezialisierte Agenten ein, die in einem kooperativen, iterativen Kreislauf arbeiten und einen Umgebungsspeicherpool nutzen, um die Effizienz zu erhöhen. Zweitens stellen wir eine standardisierte Bewertungsmethode auf Basis von Exit-Codes vor, die das manuelle Schreiben benutzerdefinierter Parser eliminiert. Drittens automatisieren wir den fail2pass-Validierungsprozess unter Verwendung dieser verlässlichen Exit-Code-Signale.Experimente mit 671 Issues über vier Programmiersprachen zeigen, dass unsere Pipeline effektive Konstruktion gültiger Aufgabeninstanzen ermöglicht. Zum Beispiel konstruiert unser SWE-Builder bei Verwendung von GPT-4.1-mini 269 gültige Instanzen zu einem Preis von 0,045 pro Instanz, während bei Verwendung von Gemini-2.5-flash vergleichbare Leistungen zum günstigsten Preis von 0,024 pro Instanz erzielt werden. Wir demonstrieren außerdem, dass unsere Exit-Code-basierte Bewertung im Vergleich zur manuellen Prüfung eine Genauigkeit von 100 % erreicht und dass unsere automatisierte fail2pass-Validierung eine Präzision von 0,92 und einen Recall von 1,00 aufweist.Wir hoffen, dass unsere automatisierte Pipeline die Sammlung umfangreicher und hochwertiger Datensätze zur Lösung von GitHub-Issues sowohl für das Training als auch für die Evaluation beschleunigen wird. Unser Code und unsere Datensätze sind unter https://github.com/DeepSoftwareAnalytics/swe-factory veröffentlicht.