Together AI veröffentlicht DeepSWE: Offene RL-Code-Agent mit 59% SWEBench-Genauigkeit
Together AI hat DeepSWE veröffentlicht, einen vollständig open-source Software Engineering Agent, der ausschließlich durch reinforcement learning (RL) trainiert wurde. Basierend auf dem Qwen3-32B Sprachmodell erreicht DeepSWE 59% Genauigkeit im SWEBench-Verified Benchmark und 42,2% Pass@1, was ihm die Spitzenposition unter offenen Modellen einbringt. Diese Veröffentlichung markiert einen bedeutenden Paradigmenwechsel bei Together AI, von traditionellen Vortrainingspipelines hin zu autonomen Sprachagenten, die durch reale Rückmeldungen kontinuierlich lernen und sich verbessern. Reinforcement Learning trifft Codegenerierung DeepSWE entstand durch die Weiterbildung des Qwen3-32B Grundmodells mit Agenticas modularem RL-Framework, dem rLLM. Im Gegensatz zu herkömmlichen überwachten Feinabstimmungsansätzen ermöglicht rLLM es den Agenten, sich durch Erfahrung an realen Workflows anzupassen. DeepSWE wurde speziell darauf trainiert, komplexe Softwareentwicklungsaufgaben durch ein feedbackgesteuertes Loop zu lösen, anstatt auf statischen Datensätzen zu basieren. Das Trainingspipeline integriert Agenticas R2EGym-Datensatz, eine Softwareentwicklungsbenchmark, die für die Entwicklung von RL-Agenten entwickelt wurde. Das Framework konzentriert sich auf das Training von Sprachmodellen mit handlungsorientierten Zielen, wie zum Beispiel das Beheben von Fehlern, das Abschließen von Funktionen und das Bearbeiten von Code. Dies bringt DeepSWE näher an den Arbeitsprozess menschlicher Ingenieure, die durch Iteration und Ergebnisse lernen. Leistungsbenchmark und Fähigkeiten Auf SWEBench-Verified, dem strengsten Benchmark für Software Engineering Agents, erreicht DeepSWE 59% Genauigkeit bei Testzeitsskalierung. Dies ist eine erhebliche Verbesserung gegenüber früheren offenen Modellen. In Pass@1-Evaluierungen, die die Wahrscheinlichkeit messen, dass der Agent ein Problem beim ersten Versuch korrekt löst, erreicht DeepSWE beeindruckende 42,2%. Diese Resultate unterstreichen die Stärke von RL-basiertem Training, insbesondere in Bereichen, die iterative Vernunftschlüsse und präzise Ausgaben erfordern, wie z.B. Codesynthese. Die Architektur des Modells, die vom Qwen3-32B geerbt wurde, ermöglicht effektives Skalieren und gleichzeitig eine Eignung für praktische Anwendungen. Offene Quellen und Wiederverwendbarkeit im Mittelpunkt Ein herausragendes Merkmal dieser Veröffentlichung ist ihre volle Transparenz. Together AI und Agentica haben nicht nur das DeepSWE-Modell, sondern auch das gesamte Trainingsrezept, einschließlich des rLLM-Frameworks, des R2EGym-Datensatzes und der Trainingskonfigurationsskripte, als Open Source freigegeben. Dies fördert die Wiederverwendbarkeit und lädt die breitere Forscher- und Entwicklergemeinschaft ein, DeepSWE ohne Einschränkungen zu erweitern oder darauf aufzubauen. Entwickler können DeepSWE und rLLM über folgende Kanäle zugreifen: Vom Sprachverstehen zur handlungsorientierten Autonomie DeepSWE markiert einen philosophischen und praktischen Wandel: von der Erstellung von Modellen, die über Sprache nachdenken, hin zur Erstellung von Agenten, die durch Interaktion lernen. Traditionelle Sprachmodelle (LLMs) haben starke Vernunftschlussfähigkeiten gezeigt, aber oft die Fähigkeit fehlen lassen, sich an Feedback anzupassen oder mit der Nutzung besser zu werden. Reinforcement Learning ermöglicht es diesen Modellen, nicht nur gut bei der Veröffentlichung, sondern auch mit der Zeit und der Anpassung an neue Problembereiche und Domains besser zu werden. Dieser Ansatz öffnet auch die Tür für lokale Bereitstellungen. Da DeepSWE vollständig Open Source und modular ist, kann es erweitert und für organisationsspezifische Anwendungsfälle wiedergelernt werden. Entwickler und Forscher können ihre eigenen Agenten auf DeepSWE basieren, indem sie rLLM nutzen, um verschiedene Bereiche wie Webnavigation, Robotik oder autonome Forschungsunterstützung zu bedienen. Schlussfolgerung DeepSWE ist ein Meilenstein in der Evolution von generativen KI-Systemen für Softwareentwicklung. Durch die Anwendung von Reinforcement Learning auf große Sprachmodelle wie Qwen3-32B und die Freigabe der gesamten Trainingsinfrastruktur ermöglicht Together AI eine Zukunft, in der Agenten nicht nur vortrainiert und bereitgestellt, sondern kontinuierlich trainiert und verbessert werden. Dieser Sprung vom Sprachverstehen zur handlungsorientierten Autonomie hat weitreichende Implikationen für Programmierung, Automatisierung und den Design intelligenter Systeme. Die Forscher dieses Projekts erhalten alle Anerkennung für ihre Arbeit. Gerne sind wir auf Twitter zu folgen, und vergessen Sie nicht, sich unserem 100k+ ML SubReddit anzuschließen und unseren Newsletter abzubestellen.