日期

1 年前

自然语言强化学习（NLRL，全称为 Natural Language Reinforcement Learning）是一个由伦敦大学学院、上海交通大学、布朗大学、布里斯托大学、新加坡国立大学以及萨里大学的研究者于 2024 年提出的全新强化学习框架，相关论文成果为「Natural Language Reinforcement Learning」。

NLRL 的核心思想是将强化学习 (RL) 的核心概念，包括任务目标、策略、价值函数、贝尔曼方程和策略迭代，类比为基于自然语言的形式，从而开辟了一条通向更智能、更自然的 AI 决策学习的新道路。这种方法创新性地将 RL 原则重新定义为语言对应物，使得 AI 系统能够通过与环境的交互来学习，而不依赖任何人类标注数据。

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

强化学习框架 Mem-𝛼

Mem-𝛼 在多种基准测试中相较于现有的记忆增强智能体基线取得了显著改进。

2 个月前

在线强化学习框架 ReinFlow

ReinFlow 具有轻量级实现、内置探索功能，并能广泛适用于各种流策略变体。

3 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

2 个月前

CapRL 描述强化学习

CapRL 能有效训练模型生成更通用和准确的图像描述。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

1 年前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

强化学习框架 Mem-𝛼

Mem-𝛼 在多种基准测试中相较于现有的记忆增强智能体基线取得了显著改进。

2 个月前

在线强化学习框架 ReinFlow

ReinFlow 具有轻量级实现、内置探索功能，并能广泛适用于各种流策略变体。

3 个月前

多阶段强化学习框架 RewardMap

RewardMap 提升了多模态大语言模型在结构化视觉任务中的能力。

2 个月前

CapRL 描述强化学习

CapRL 能有效训练模型生成更通用和准确的图像描述。

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

用 AI 构建 AI

HyperAI Newsletters

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

用 AI 构建 AI

HyperAI Newsletters

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

Command Palette

自然语言强化学习 NLRL

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自然语言强化学习 NLRL

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自然语言强化学习 NLRL

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

用 AI 构建 AI

HyperAI Newsletters

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习

相关百科

猜测-思考-回答 Guess–Think–Answer

强化学习框架 Mem-𝛼

在线强化学习框架 ReinFlow

多阶段强化学习框架 RewardMap

CapRL 描述强化学习