日期

1 年前

ReAct 框架是由普林斯顿大学和 Google Research 的姚顺雨等人于 2022 年在论文「REACT:SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS」中提出，该研究提出了一种通用范式，将推理和行动的进步结合起来，使语言模型能够解决各种语言推理和决策任务。研究证明，在提示更大的语言模型和微调较小的语言模型时，Reason+Act (ReAct) 范式系统地优于仅推理和行动的范式。推理和行动的紧密结合还呈现出与人类一致的任务解决轨迹，从而提高了可解释性、可诊断性和可控制性。

ReAct 使语言模型能够以交错方式生成口头推理轨迹和文本动作。虽然动作会导致来自外部环境的观察反馈，但推理轨迹不会影响外部环境。相反，它们通过推理上下文并使用有用的信息更新模型来影响模型的内部状态，以支持未来的推理和行动。

ReAct 是一种简单而有效的方法，用于协同语言模型中的推理和行动。研究团队通过专注于多跳问答、事实核查和交互式决策任务的各种实验，表明 ReAct 具有可解释的决策轨迹，可带来卓越的性能。

ReAct 证明了在语言模型中联合建模思维、行为和环境反馈的可行性，使其成为能够解决需要与环境交互的任务的多功能代理。

判别式约束优化框架 DisCO

一种新的基于原则的判别约束优化框架，避免了难度偏差和训练不稳定性。

2 个月前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

3 个月前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

Cache-to-Cache（C2C）

C2C 通过转换和融合模型间的键值（KV）缓存，实现直接的语义交流。

2 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

2 个月前

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

2 个月前

UserBench 基准

UserBench 旨在评估和促进智能体理解、交互和适应现实世界用户沟通的能力。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

1 年前

ReAct 证明了在语言模型中联合建模思维、行为和环境反馈的可行性，使其成为能够解决需要与环境交互的任务的多功能代理。

判别式约束优化框架 DisCO

一种新的基于原则的判别约束优化框架，避免了难度偏差和训练不稳定性。

2 个月前

智能体上下文工程 Agentic Context Engineering

ACE 通过动态优化输入上下文使智能体能够自我改进。

3 个月前

猜测-思考-回答 Guess–Think–Answer

GTA 在多个文本分类基准测试中均显著优于标准 SFT 基线和最先进的 RL 方法。

3 个月前

Cache-to-Cache（C2C）

C2C 通过转换和融合模型间的键值（KV）缓存，实现直接的语义交流。

2 个月前

多编程语言 MoE 架构：MultiPL-MoE

MultiPL-MoE 是后预训练阶段扩展低源编程语言的一种有效方法。

2 个月前

门控注意力 Gated Attention

通义千问团队系统地研究了门控机制在标准 softmax 注意力中的作用。

2 个月前

UserBench 基准

UserBench 旨在评估和促进智能体理解、交互和适应现实世界用户沟通的能力。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

用 AI 构建 AI

HyperAI Newsletters

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

用 AI 构建 AI

HyperAI Newsletters

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

Command Palette

ReAct 框架

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ReAct 框架

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ReAct 框架

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

用 AI 构建 AI

HyperAI Newsletters

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准

相关百科

判别式约束优化框架 DisCO

智能体上下文工程 Agentic Context Engineering

猜测-思考-回答 Guess–Think–Answer

Cache-to-Cache（C2C）

多编程语言 MoE 架构：MultiPL-MoE

门控注意力 Gated Attention

UserBench 基准