HyperAIHyperAI

Command Palette

Search for a command to run...

论文 - SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习 | 论文 | HyperAI超神经