HyperAI

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文
SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

3 个月前

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文
SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习

3 个月前

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

论文 - SofT-GRPO：通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习 | 论文 | HyperAI超神经