HyperAIHyperAI

Command Palette

Search for a command to run...

Prozessmining-basiertes reasoning-orientiertes GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

Zusammenfassung

Die auf Verstärkungslernen (Reinforcement Learning, RL) basierende Nachtrainingsstrategie hat für die Ermöglichung von Mehrschritt-Reasoning in großen Reasoning-Modellen (Large Reasoning Models, LRMs) eine entscheidende Rolle gespielt. Allerdings sind die derzeitigen Belohnungsschemata typischerweise auf das Endergebnis ausgerichtet. Wir stellen PM4GRPO vor, eine auf Reasoning ausgerichtete Gruppenrelative Policy-Optimierung (Group Relative Policy Optimization, GRPO), die herkömmliche Belohnungen für Antwort und Format durch Signale hinsichtlich des Reasoning-Prozesses ergänzt. Dazu werden Prozessmining-Techniken eingesetzt, um eine skalare Konformitätsbelohnung zu berechnen, die misst, wie eng die Reasoning-Entwicklung eines Policy-Modells mit dem vortrainierten Teacher-Modell übereinstimmt. Die empirischen Ergebnisse auf fünf Benchmarks zeigen, dass PM4GRPO bestehende Methoden für auf GRPO basierendes Nachtraining deutlich übertrifft. Diese Ergebnisse belegen, dass die Nutzung von Prozessmining für eine auf Reasoning ausgerichtete GRPO die Reasoning-Fähigkeiten von Policy-Modellen effektiv verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Prozessmining-basiertes reasoning-orientiertes GRPO | Paper | HyperAI