SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung
Zhi Zheng Wee Sun Lee

Abstract
Das Paradigma des „soft-thinking“ bei großen Sprachmodellen (Large Language Models, LLMs) kann in bestimmten Szenarien die herkömmliche diskrete Token-Chain-of-Thought-(CoT)-Bewertung überlegen sein und unterstreicht damit seinen Forschungs- und Anwendungswert. Allerdings stellt sich bei der Erweiterung des soft-thinking-Ansatzes mittels Verstärkendem Lernen (Reinforcement Learning, RL) eine Herausforderung, da die diskrete CoT-Reasoning-Strategie durch Policy-Optimierungs-Algorithmen wie die Gruppen-relative Policy-Optimierung (Group Relative Policy Optimization, GRPO) effektiv verbessert werden kann. Die Schwierigkeit liegt in der Integration von Stochastik in die soft-thinking-Token und der entsprechenden Aktualisierung der soft-thinking-Politik. Daher erzielten bisherige Versuche, soft-thinking mit GRPO zu kombinieren, typischerweise schlechtere Ergebnisse als ihre Entsprechungen basierend auf diskreten Token. Um das volle Potenzial von soft-thinking vollständig auszuschöpfen, präsentiert dieser Artikel einen neuartigen Policy-Optimierungs-Algorithmus namens SofT-GRPO, der LLMs unter dem soft-thinking-Reasoning-Paradigma stärkt. SofT-GRPO injiziert Gumbel-Rauschen in die Logits, verwendet die Gumbel-Softmax-Technik, um sicherzustellen, dass soft-thinking-Token innerhalb des vortrainierten Embedding-Raums bleiben, und nutzt die Reparametrisierungstechnik im Kontext von Policy-Gradient-Methoden. Wir führen Experimente mit Basis-LLMs mit 1,5 B bis 7 B Parametern durch. Die Ergebnisse zeigen, dass SofT-GRPO es den soft-thinking-LLMs ermöglicht, die diskreten Token-GRPO-Modelle bei Pass@1 im Durchschnitt um 0,13 % zu übertreffen, während eine erhebliche Verbesserung bei Pass@32 um durchschnittlich 2,19 % erreicht wird. Der Quellcode und die Modellgewichte sind unter https://github.com/zz1358m/SofT-GRPO-master verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.