HyperAI超神经
Back to Headlines

科学家提出贝叶斯自适应强化学习框架,大幅提升大模型推理效率与泛化能力

15 days ago

大模型反思的有效性一直是学术界关注的热点问题。近日,美国西北大学与谷歌、DeepMind 联合研究团队开发了一种名为贝叶斯自适应强化学习(BARL, Bayes-Adaptive Reinforcement Learning)的新算法,旨在提升大模型在决策过程中的反思效率。BARL 算法通过三种创新机制,首次从理论上解析了模型反思的动因、路径和时机:一是采用线性化 N 选最优机制,通过整合多候选策略逐步排除次优方案;二是将大模型推理建模为贝叶斯自适应马尔可夫决策过程,使模型能在不确定环境中动态维护“假设后验分布”;三是建立“反思-验证”闭环系统,使模型能够持续优化策略。 具体来说,BARL 算法的工作流程类似于“侦探办案”。当模型面临一个数学问题时,会生成多种不同的解题策略,并根据初始假设分配权重。随着问题解决进程的推进,模型不断收集环境反馈,更新各策略的后验分布,逐步剔除那些不适用的方案,最终选择出最优解。这种机制不仅大幅减少了模型所需的运算资源,还在多个基准测试中展现了更高的准确率和 token 效率。与基于进度奖励的强基线相比,BARL 减少了 39% 的 token 使用量;与 GRPO 算法相比,减少 50%;与基础模型相比,甚至减少超过 90% 的冗余计算。 研究人员指出,当前大模型在面临简单问题时,频繁产生看似智能但实际低效的“形式化反思”,如反复推导已知条件,未能有效提高正确率。这一现象促使研究团队进一步探讨大模型反思的本质,特别是在样本稀缺的情况下,如何使其掌握解决问题的“方法论”,而不是仅仅记住特定答案。研究团队发现,传统马尔可夫 RL 方法在测试阶段缺乏有效的反思机制,因为它们在训练过程中主要通过试错记住正确路径,而不注重策略的动态调整。相比之下,BARL 在训练时会维护“重复三次”的抽象规则,测试时则通过观察反馈动态更新假设,这使它在新任务面前具备更强的泛化能力。实验结果显示,BARL 的测试准确率比 GRPO 高 40%,证明了“维护假设分布”的优势。 BARL 的“内部信念-环境反馈”冲突检测机制相当于给模型安装了一个“反思开关”。一旦模型预估最佳策略的实际回报与预期不符,系统将判定该策略为非优并排除。例如,在多个候选方案中,初次反馈冲突就可以淘汰其中一个,从而保留更有潜力的选项。这不仅提高了探索效率,还使模型具备了在未知环境中自适应调整策略的能力。 此外,BARL 在编程任务和智能体协作领域也有广泛的应用前景。编程任务中,通过单元测试动态验证代码的有效性,BARL 可显著优化代码生成过程。而多智能体协作场景下的策略冲突,则为后续研究指明了方向,特别是在不同智能体假设分布的协同更新方面。 西北大学博士生张申傲是该研究的第一作者,他本科毕业于华南理工大学,曾在美国加州大学伯克利分校访学期间跟随谢尔盖·莱文教授深入学习强化学习。这段经历为他日后的研究奠定了坚实基础。张申傲及其团队未来将进一步拓展 BARL 在更大数据集和模型上的应用,探索基于新算法的预训练和再训练方法,尤其是如何在工业界实现知识的有效转移和应用优化,这为未来的 AI 系统设计提供了新的思路。 业内人士认为,BARL 算法的提出不仅解决了大模型反思过程中的效率问题,而且突破了传统强化学习的“记忆瓶颈”,为 AI 系统在未知任务中的自我优化提供了可行路径。这一研究有望在未来推动更加高效、智能的 AI 决策系统的广泛应用。

Related Links