11 天前

通过想象、搜索与批判实现LLM的自我改进

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
通过想象、搜索与批判实现LLM的自我改进
摘要

尽管大型语言模型(Large Language Models, LLMs)在各类任务中展现出令人瞩目的能力,但在涉及复杂推理与规划的场景中仍面临显著挑战。近期研究提出采用先进的提示工程技术,并结合高质量数据进行微调,以增强LLMs的推理能力。然而,这些方法在本质上受限于数据的可获得性与质量。在此背景下,自我修正与自我学习成为具有前景的解决方案,其通过使LLMs能够基于自我评估的奖励信号不断优化输出,实现持续改进。然而,LLMs在复杂推理与规划任务中进行自我精炼的有效性仍存疑。本文提出AlphaLLM,一种面向LLMs自我提升的框架,该框架将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与LLMs相结合,构建了一个无需额外标注数据的自我增强循环。受AlphaGo成功经验的启发,AlphaLLM针对LLM与MCTS融合过程中所面临的独特挑战——包括数据稀缺性、语言任务搜索空间的庞大性,以及语言任务反馈的主观性——提出了系统性应对策略。AlphaLLM由三个核心组件构成:提示生成模块、专为语言任务设计的高效MCTS方法,以及一组三重批判模型,用于提供精准反馈。在数学推理任务上的实验结果表明,AlphaLLM能够在不引入额外标注数据的前提下,显著提升LLMs的性能,充分展现了LLMs实现自我改进的巨大潜力。

通过想象、搜索与批判实现LLM的自我改进 | 最新论文 | HyperAI超神经