HyperAI超神经

基于代理的推理和工具集成在LLMs中的强化学习方法

Joykirat Singh, Raghav Magazine, Yash Pandya, Akshay Nambi
发布日期: 5/7/2025
基于代理的推理和工具集成在LLMs中的强化学习方法
摘要

大型语言模型(LLMs)在复杂的推理任务中取得了显著进展,但它们仍然受到静态内部知识和仅基于文本推理的限制。现实世界中的问题解决通常需要动态、多步骤的推理、自适应决策以及与外部工具和环境的交互能力。在这项工作中,我们引入了ARTIST(代理推理与工具集成在自改进变压器中),这是一个统一框架,将代理推理、强化学习和工具集成紧密结合起来,应用于大型语言模型。ARTIST使模型能够在多轮推理链中自主决定何时、如何以及使用哪些工具,通过结果导向的强化学习来学习稳健的工具使用和环境交互策略,而无需逐步骤监督。广泛的实验表明,在数学推理和多轮函数调用基准测试中,ARTIST始终优于最先进的基线模型,相对于基础模型最高可实现22%的绝对性能提升,并在最具挑战性的任务上表现出强劲的优势。详细的研究和指标分析显示,代理强化学习训练导致了更深层次的推理、更有效的工具使用和更高品质的解决方案。我们的研究结果确立了代理强化学习与工具集成为大型语言模型提供强大、可解释且泛化的解决问题的新前沿。