Command Palette
Search for a command to run...

摘要
现代语言模型在后训练阶段主要依赖两类训练数据:一类是在线数据(由模型生成的轨迹),另一类是离线数据(人类或其他模型的示范)。这两类数据通常分别被强化学习(RL)和监督微调(SFT)等方法所采用。本文表明,这些方法并非相互矛盾,而是同一种优化过程的不同体现。我们推导出一种统一的策略梯度估计器,并将多种后训练方法的计算过程,统一表述为在不同数据分布假设和各类偏差-方差权衡条件下,对同一目标函数的梯度。该梯度估计器由四个可互换的组成部分构成:稳定化掩码(stabilization mask)、参考策略分母、优势估计(advantage estimate)以及似然梯度。基于上述理论发现,我们提出一种新型算法——混合后训练(Hybrid Post-Training, HPT),该算法能够动态选择不同的训练信号。HPT旨在实现对示范数据的有效利用与稳定探索的平衡,同时不损害模型已习得的推理模式。我们通过大量实验与消融研究,验证了所提出统一理论框架及HPT的有效性。在六个数学推理基准测试以及两个分布外(out-of-distribution)测试套件中,HPT在不同规模和架构的多种模型上均持续超越强基线方法。