HyperAIHyperAI

Command Palette

Search for a command to run...

通过想象、搜索与批判实现LLM的自我改进

Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu

摘要

尽管大型语言模型(LLMs)在各类任务中展现出令人瞩目的能力,但在涉及复杂推理与规划的场景中,其表现仍显不足。近期研究提出了一系列先进的提示工程(prompting)技术,并强调了使用高质量数据进行微调对提升LLM推理能力的必要性。然而,这些方法在本质上受限于数据的可获得性与质量。针对这一挑战,自我修正与自我学习成为具有潜力的解决方案,其通过使LLM能够根据自评估的奖励信号不断优化输出,实现持续学习。然而,LLM在复杂推理与规划任务中进行自我精炼的有效性仍存疑。本文提出AlphaLLM,一种用于LLM自我提升的框架,该框架将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与LLM相结合,构建了一个无需额外标注数据的自我改进闭环。受AlphaGo成功经验的启发,AlphaLLM有效应对了将MCTS与LLM结合以实现自我提升所面临的独特挑战,包括数据稀缺性、语言任务中搜索空间的巨大规模,以及语言任务反馈的主观性。AlphaLLM由三个核心组件构成:提示生成模块、专为语言任务设计的高效MCTS方法,以及一组三重批评者模型,用于提供精准的反馈。在数学推理任务上的实验结果表明,AlphaLLM在不引入额外标注数据的情况下,显著提升了LLM的性能,验证了LLM实现自我改进的可行性与潜力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供