摘要

现实世界中的任务需要在不同粒度上做出决策，而人类之所以在这一方面表现出色，正是因为他们能够利用一种统一的认知表征，将规划从根本上理解为一种高层级的行为形式。然而，当前基于大语言模型（LLM）的智能体缺乏在不同决策粒度间灵活切换的这一关键能力。这种局限性源于现有范式中对高层规划与底层动作之间所强加的刚性分离，导致系统动态适应能力受限，泛化性能也受到制约。为此，我们提出 ReCode（递归代码生成）——一种全新的范式，通过将规划与动作统一于单一代码表征之中，有效解决了上述问题。在该表征中，ReCode 将高层级计划视为抽象的占位符函数，智能体随后递归地将其分解为更细粒度的子函数，直至最终生成原始动作。这种递归机制打破了规划与动作之间的刚性边界，使智能体能够动态调节其决策的粒度。此外，该递归结构天然生成丰富且多层次的训练数据，使模型能够学习到具有层次结构的决策过程。大量实验表明，ReCode 在推理性能上显著超越了多个先进基线方法，并在训练阶段展现出卓越的数据效率。这一结果验证了我们核心观点：通过递归代码生成实现规划与动作的统一，是一种强大而有效的手段，可实现对决策粒度的通用控制。代码已开源，地址为：https://github.com/FoundationAgents/ReCode。

源 PDF