HyperAIHyperAI

Command Palette

Search for a command to run...

vor 15 Tagen

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

Zhi Zheng Wee Sun Lee

SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung

Abstract

Das Paradigma des „soft-thinking“ bei großen Sprachmodellen (Large Language Models, LLMs) kann in bestimmten Szenarien die herkömmliche diskrete Token-Chain-of-Thought-(CoT)-Bewertung überlegen sein und unterstreicht damit seinen Forschungs- und Anwendungswert. Allerdings stellt sich bei der Erweiterung des soft-thinking-Ansatzes mittels Verstärkendem Lernen (Reinforcement Learning, RL) eine Herausforderung, da die diskrete CoT-Reasoning-Strategie durch Policy-Optimierungs-Algorithmen wie die Gruppen-relative Policy-Optimierung (Group Relative Policy Optimization, GRPO) effektiv verbessert werden kann. Die Schwierigkeit liegt in der Integration von Stochastik in die soft-thinking-Token und der entsprechenden Aktualisierung der soft-thinking-Politik. Daher erzielten bisherige Versuche, soft-thinking mit GRPO zu kombinieren, typischerweise schlechtere Ergebnisse als ihre Entsprechungen basierend auf diskreten Token. Um das volle Potenzial von soft-thinking vollständig auszuschöpfen, präsentiert dieser Artikel einen neuartigen Policy-Optimierungs-Algorithmus namens SofT-GRPO, der LLMs unter dem soft-thinking-Reasoning-Paradigma stärkt. SofT-GRPO injiziert Gumbel-Rauschen in die Logits, verwendet die Gumbel-Softmax-Technik, um sicherzustellen, dass soft-thinking-Token innerhalb des vortrainierten Embedding-Raums bleiben, und nutzt die Reparametrisierungstechnik im Kontext von Policy-Gradient-Methoden. Wir führen Experimente mit Basis-LLMs mit 1,5 B bis 7 B Parametern durch. Die Ergebnisse zeigen, dass SofT-GRPO es den soft-thinking-LLMs ermöglicht, die diskreten Token-GRPO-Modelle bei Pass@1 im Durchschnitt um 0,13 % zu übertreffen, während eine erhebliche Verbesserung bei Pass@32 um durchschnittlich 2,19 % erreicht wird. Der Quellcode und die Modellgewichte sind unter https://github.com/zz1358m/SofT-GRPO-master verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung | Forschungsarbeiten | HyperAI