PromptCoT 2.0: Skalierung der Prompt-Synthese für das Reasoning großer Sprachmodelle

Große Sprachmodelle (LLMs) entwickeln sich von dialogbasierten Systemen hin zu leistungsstarken Reasoning-Modellen für anspruchsvolle Aufgaben wie Mathematik-Olympiaden und Wettbewerbsprogrammierung. Während die Skalierung der Parameter und der Rechenaufwand im Testzeitraum den Fortschritt vorangetrieben haben, bleibt ein zentraler Engpass die geringe Verfügbarkeit hochwertiger Trainingsaufgaben: Menschlich kuratierte Datensätze sind kostspielig und begrenzt, während bestehende synthetische Korpora oft zu einfach oder zu eng gefasst sind. PromptCoT 1.0 zeigte, dass die Einbeziehung von Begründungen (Rationales) in den Prozess der Prompt-Synthese die Schwierigkeit der Aufgaben erhöht. Auf dieser Grundlage präsentieren wir PromptCoT 2.0, einen skalierbaren Rahmen, der handgefertigte Heuristiken durch eine Erwartung-Maximierung (EM)-Schleife ersetzt, bei der Begründungen iterativ verfeinert werden, um die Prompt-Generierung zu leiten. Dies führt zu Aufgaben, die sowohl schwieriger als auch vielfältiger sind als frühere Korpora. Die synthetisch generierten Prompts unterstützen zwei Nachtrainings-Regime: (1) Self-Play, bei dem starke Modelle sich autonom durch überprüfbare Rückmeldungen verbessern, ohne auf stärkere Lehrmodelle angewiesen zu sein; und (2) Überwachtes Feintuning (SFT), bei dem schwächere Modelle aus von Lehrmodellen abgeleiteten Verlaufsdaten lernen. Umfangreiche Experimente belegen die Wirksamkeit dieses Ansatzes. Im Self-Play-Modus erreicht die Anwendung von PromptCoT 2.0 auf Qwen3-30B-A3B-Thinking-2507 neue SOTA-Ergebnisse auf der 30B-Skala, mit Steigerungen von +4,4, +4,8 und +5,3 bei AIME 24/25 und HMMT 25, +6,1 und +5,0 bei LiveCodeBench v5/v6 sowie +35 Elo bei Codeforces. Im SFT-Modus steigert die alleinige Verwendung synthetischer Prompts beim Training von Qwen2.5-7B-Instruct die Genauigkeit auf 73,1 (AIME 24), 65,6 (AIME 25) und 53,4 (LiveCodeBench v5), wodurch Modelle, die auf menschlichem oder hybriden Datenmaterial trainiert wurden, übertroffen werden. Analysen bestätigen zudem, dass PromptCoT 2.0 grundlegend schwierigere und verteilungsunterschiedliche Aufgaben erzeugt. Diese Ergebnisse etablieren die Prompt-Synthese als neue Dimension für die Skalierung von Reasoning-Fähigkeiten und positionieren PromptCoT 2.0 als skalierbare Grundlage für zukünftige Open-Source-Modelle. Die Implementierung ist unter folgendem URL verfügbar: [https://...]