Command Palette
Search for a command to run...

摘要
在自然语言处理任务中,纯强化学习(RL)微调方法通常面临探索效率低和收敛速度慢的问题;而监督微调(SFT)方法虽然训练效率高,但其性能上限有限,且相较于RL,理论基础也相对薄弱。为解决效率与能力之间的权衡问题,我们提出了一种统一训练范式下的“猜测—思考—回答”(Guess-Think-Answer, GTA)框架,该框架融合了SFT的高效性与RL的能力提升优势。GTA通过让模型首先生成一个初步猜测(通过交叉熵损失进行优化),随后对这一猜测进行反思,再生成最终答案,其中强化学习奖励不仅用于优化最终输出,还用于塑造整个GTA结构的格式。这种混合方法在收敛速度上优于纯RL方法,在性能上限上则超越了纯SFT方法。为缓解两种训练信号之间的梯度冲突,我们引入了损失掩码(loss masking)与梯度约束机制。在四个文本分类基准上的实验结果表明,GTA显著加速了模型收敛,同时在性能上优于独立的SFT与RL基线方法。