HyperAI超神经

大型语言模型（LLMs）在理解和回答文档内容时表现出色，但在处理简单的数学问题时往往表现不佳。这主要是因为文本推理对于计算或算法任务通常不理想，尽管一些LLMs可以生成Python代码来解决符号查询，但它们并不总是知道何时使用代码或使用哪种代码最有效。为了解决这一问题，麻省理工学院（MIT）的研究人员开发了一种名为CodeSteer的智能辅助系统。CodeSteer是一个较小的语言模型，它通过自动生成一系列提示，指导较大的LLM在文本和代码生成之间切换，直到正确解答问题。这一系统会审查LLM当前和之前的答案，并提供改进建议，直至答案正确。研究人员发现，当较大规模的LLM与CodeSteer结合使用时，其在符号任务上的准确性提高了超过30%。这些任务包括乘法、数独和堆叠积木等。此外，CodeSteer甚至能够让较不复杂的模型超越更先进的模型，在复杂推理任务上表现出色。麻省理工学院航空航天系副教授兼实验室信息与决策系统（LIDS）负责人Chuchu Fan表示：“我们采取了互补的方法，而不是追求一种全能的模型。多年来，研究人员已经开发出了有效的技术和工具来解决各个领域的问题。我们希望使LLMs能够选择合适的工具和方法，利用他人的专业知识来增强自己的能力。” CodeSteer的工作流程是这样的：首先，它审查用户提出的问题，判断是用文本还是代码更适合解决问题以及需要哪种类型的代码。然后，CodeSteer生成一个提示，告诉较大的LLM使用编码方法还是文本推理来回答问题。较大的LLM根据提示生成答案并返回给CodeSteer，后者继续评估答案。如果答案不正确，CodeSteer会继续生成新的提示，引导LLM尝试不同的解决方法，如在Python代码中加入搜索算法或约束条件，直到找到正确的答案。在设计CodeSteer的过程中，研究团队发现现有的数据集不足以用于细调和测试模型，因为他们需要一个能够指出特定问题是否最适合用文本或代码解决的数据集。于是，他们收集了37个复杂的符号任务，包括空间推理、数学、顺序推理和优化，并构建了自己的数据集SymBench。通过利用SymBench，研究人员实现了CodeSteer的有效细调。实验结果显示，CodeSteer在九种基准方法中表现最佳，将平均准确率从53.3%提高到了86.4%。即使面对此前未见过的任务，以及不同类型的LLMs，CodeSteer依然保持着类似的高性能。此外，一个通用模型在与CodeSteer结合后，能够在复杂推理和规划任务上达到更高的准确率，而所需的计算资源却少得多。未来，研究团队希望进一步优化CodeSteer，加快其迭代提示过程。他们还在研究如何有效地细调一个能够自由切换文本推理和代码生成的统一模型，而不是依赖于单独的辅助系统。业内人士对此进行了高度评价。Google Cloud AI的研究员Jinsung Yoon表示：“作者提出了一个优雅的解决方案，解决了LLMs工具利用的关键挑战。这一简单但极具影响力的方法使最先进的LLMs在不需要直接细调的情况下显著提高了性能。”Google DeepMind的资深科学家Chi Wang也赞同道：“通过训练一个小而专业的模型来战略性地指导更大的、先进的模型，这种智能合作方式为在复杂现实场景中应用AI开辟了道路。” CodeSteer的开发团队来自麻省理工学院，其中包括LIDS研究生Yongchao Chen、航空航天系研究生Yilun Hao、伊利诺伊大学香槟分校的研究生Yueying Liu以及MIT-IBM沃森AI实验室的研究科学家Yang Zhang。这项研究将在国际机器学习会议上发表。

MIT开发CodeSteer：为大型语言模型配备“教练”以高效解决复杂任务

Related Links