6 个月前

摘要

近期研究通过为语言模型（Language Models, LMs）引入外部工具或环境，推动了语言代理（language agents）的发展，使其具备推理与行动能力。然而，现有大多数语言代理仍依赖于现成语言模型的少样本提示（few-shot prompting）技术。本文探讨并主张一种被忽视的研究方向：通过微调语言模型以构建语言代理。在基于 Google 搜索 API 的问答（Question Answering, QA）任务设置下，我们系统性地考察了多种基础语言模型、提示方法、微调数据及 QA 任务，并发现，在对基础语言模型进行微调后，语言代理的性能始终得到显著提升。例如，仅使用 GPT-4 生成的 500 条代理轨迹对 Llama2-7B 进行微调，即可使模型在 HotpotQA 任务上的表现提升 77%。此外，本文提出一种名为 FireAct 的新方法，通过融合来自多种任务与多种提示方式的代理轨迹对语言模型进行微调，进一步验证了微调数据多样性对代理性能的积极影响。结合对扩展性（scaling）、鲁棒性、泛化能力、效率与成本等方面的深入分析，本研究全面揭示了为语言代理微调语言模型所带来的多重优势。同时，本文还提供了一套初步的实验设计框架、关键洞见以及若干开放性问题，为未来语言代理微调方向的研究奠定了基础。

源 PDF