Resources - 监督微调的泛化：基于奖励修正的强化学习视角 | 论文 | HyperAI超神经

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务协议隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文
监督微调的泛化：基于奖励修正的强化学习视角

在 Discord 上讨论

9 个月前

监督式微调

摘要论文资源

yongliang-wu/DFT

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道论文教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务协议隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文
监督微调的泛化：基于奖励修正的强化学习视角

在 Discord 上讨论

9 个月前

监督式微调

摘要论文资源

yongliang-wu/DFT

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道论文教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

566

566