强化微调 Reinforcement Fine-Tuning
强化微调(Reinforcement Fine-Tuning,简称 RFT)是一种结合了监督微调(Supervised Fine-Tuning,简称 SFT)和强化学习(Reinforcement Learning,简称 RL)的方法,旨在通过引入多条推理路径的学习,对这些路径与正确答案的匹配程度进行自动评估,从而优化模型生成高质量解答的能力。
RFT 最早由字节跳动于 2024 年提出,相关论文「ReFT: Reasoning with REinforced Fine-Tuning」已发表于 ACL 2024 。这项技术通过两个阶段来提升模型性能:首先是预热 (Warm-up) 阶段,使用 SFT 对模型进行预热,为模型提供一个基础,使其能够生成对数学问题的基本正确响应;其次是强化学习 (RL) 阶段,采用在线强化学习(具体是 PPO 算法)进行优化,通过自动采样大量的推理路径,并根据真实答案获取奖励,以进一步微调模型。
RFT 在多个数据集上显示出比 SFT 更好的性能,尤其是在 CodeLLAMA 模型上,RFT 在 GSM8K 数据集上的准确率比 SFT 提高了近 10 个百分点。这项技术允许模型不仅学习答案,还根据任务需求优化思考路径,为模型构建「反馈循环」,通过领域专属评分器对模型输出的评分引导,训练出适配特定场景需求的解决方案。