Command Palette

Search for a command to run...

2 个月前

收益递减的错觉:LLM中长时 horizon 执行的度量

Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

收益递减的错觉:LLM中长时 horizon 执行的度量

摘要

大规模语言模型(LLMs)的持续扩展是否会导致收益递减?现实世界中的价值往往取决于智能体能够完成的任务长度。本文首先观察到一个简单却反直觉的事实:单步准确率的边际提升,能够累积为模型成功完成任务长度的指数级增长。随后,我们提出,当简单任务被拉长时,LLM的失败主要源于执行过程中的错误,而非推理能力的不足。为此,我们提出通过显式提供解决问题所需的知识与计划,来隔离模型的执行能力。实验发现,即使小模型在单步任务上达到100%的准确率,更大的模型仍能正确执行显著更多的步骤。我们观察到,随着任务步数的增加,模型的每步准确率逐渐下降。这种下降并不仅仅源于长上下文的限制——令人意外的是,我们发现了一种“自条件效应”:当上下文包含前序步骤中的错误时,模型更可能在当前步骤中犯错。这种自条件效应并不会仅通过扩大模型规模而缓解。相比之下,近期的“思维型”模型(thinking models)并未表现出该效应,且能够在单次调用中执行远长于传统模型的任务。最后,我们对前沿思维型模型在单次调用中可执行任务长度进行了基准测试。总体而言,通过聚焦于模型的执行能力,我们希望调和当前关于“LLM如何解决复杂推理问题却在任务拉长后失败”这一争议,并凸显模型规模扩展与序列化测试时计算资源投入在长周期任务中的巨大优势。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
收益递减的错觉:LLM中长时 horizon 执行的度量 | 论文 | HyperAI超神经