HyperAI超神经

探索专家失败案例以改进LLM代理调优

Li-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou
发布日期: 4/18/2025
探索专家失败案例以改进LLM代理调优
摘要

大型语言模型(LLMs)作为代理展现了巨大的潜力,在需要多轮推理和交互的任务中表现出色。拒绝采样微调(RFT)作为一种有效的方法,用于微调作为代理的大型语言模型:首先模仿专家生成的成功轨迹,然后通过在成功且自生成的轨迹上进行迭代微调,进一步提升代理技能。然而,由于专家(如GPT-4)主要在较简单的子任务上取得成功,而RFT本身倾向于更简单的场景,许多复杂的子任务仍然未能解决,并且持续处于分布外(OOD)状态。在调查这些具有挑战性的子任务时,我们发现之前失败的专家轨迹往往能提供有价值的指导,例如计划和关键行动,这些可以显著提高代理的探索效率和关键技能的获取。基于这些观察结果,我们提出了探索专家失败(EEF)的方法,该方法从失败的专家轨迹中识别有益行动,并将其整合到训练数据集中。潜在有害的行动则被仔细排除,以防止模型学习过程受到污染。通过利用专家失败中的有益行动,EEF成功解决了某些之前无法解决的子任务,并提升了代理调优性能。值得注意的是,我们的方法在WebShop中的胜率达到了62%,超过了RFT(53.6%)和GPT-4(35.6%),据我们所知,这是首次在WebShop中超过0.81分并超过81分的方法,在SciWorld中也取得了同样的突破。