Search for a command to run...
SofT-GRPO: Überwindung der diskreten Token-basierten Verstärkungslernens von Sprachmodellen durch eine Gumbel-reparameterisierte Soft-Thinking-Policy-Optimierung