HyperAIHyperAI

Command Palette

Search for a command to run...

Parallel-R1: Ein Weg zur parallelen Denkweise durch Verstärkungslernen

Zusammenfassung

Paralleles Denken ist zu einem neuen Ansatz für die Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) geworden, indem gleichzeitig mehrere Denkwege erforscht werden. Die Aktivierung solcher Fähigkeiten durch Training bleibt jedoch herausfordernd, da bestehende Methoden überwiegend auf überwachtem Feinabstimmen (SFT) anhand synthetischer Daten basieren, was eher eine Lehrer-geführte Nachahmung als echte Exploration und Generalisierung fördert. Im Gegensatz dazu stellen wir Parallel-R1 vor – den ersten Reinforcement-Learning-(RL)-Rahmenwerk, der paralleles Denken für komplexe, realweltbezogene Schlussfolgerungsaufgaben ermöglicht. Unser Ansatz verwendet ein progressives Curriculum, das das sogenannte Cold-Start-Problem beim Training parallelen Denkens mit RL explizit adressiert. Zunächst nutzen wir SFT auf durch Prompts generierten Trajektorien einfacher Aufgaben, um die Fähigkeit zum parallelen Denken einzubauen, bevor wir auf RL wechseln, um diese Fähigkeit auf anspruchsvolleren Problemen zu erforschen und zu generalisieren. Experimente an verschiedenen Mathematik-Benchmarks, darunter MATH, AMC23 und AIME, zeigen, dass Parallel-R1 das parallele Denken erfolgreich vermittelt und dabei eine Genauigkeitssteigerung um 8,4 Prozent gegenüber dem sequenziellen Denkmodell erreicht, das direkt auf anspruchsvollen Aufgaben mit RL trainiert wurde. Eine weitere Analyse offenbart eine klare Veränderung im Denkverhalten des Modells: In einem frühen Stadium nutzt es paralleles Denken als Erkundungsstrategie, während es in einem späteren Stadium dieselbe Fähigkeit zur mehrperspektivischen Überprüfung einsetzt. Besonders bedeutend ist, dass wir das parallele Denken als temporären Erkundungsrahmen während des Trainings validieren konnten: Diese vorübergehende Erkundungsphase ermöglicht nach dem RL-Training eine höhere Leistungsgrenze, was zu einer Verbesserung um 42,9 Prozent gegenüber der Basislinie auf AIME25 führt. Unser Modell, die Daten und der Code werden unter https://github.com/zhengkid/Parallel-R1 öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Parallel-R1: Ein Weg zur parallelen Denkweise durch Verstärkungslernen | Paper | HyperAI