HyperAI

摘要

在自然语言处理任务中，纯强化学习（RL）微调方法通常面临探索效率低和收敛速度慢的问题；而监督微调（SFT）方法虽然训练效率高，但其性能上限有限，且相较于RL，理论基础也相对薄弱。为解决效率与能力之间的权衡问题，我们提出了一种统一训练范式下的“猜测—思考—回答”（Guess-Think-Answer, GTA）框架，该框架融合了SFT的高效性与RL的能力提升优势。GTA通过让模型首先生成一个初步猜测（通过交叉熵损失进行优化），随后对这一猜测进行反思，再生成最终答案，其中强化学习奖励不仅用于优化最终输出，还用于塑造整个GTA结构的格式。这种混合方法在收敛速度上优于纯RL方法，在性能上限上则超越了纯SFT方法。为缓解两种训练信号之间的梯度冲突，我们引入了损失掩码（loss masking）与梯度约束机制。在四个文本分类基准上的实验结果表明，GTA显著加速了模型收敛，同时在性能上优于独立的SFT与RL基线方法。

GTA：基于监督引导的大语言模型文本分类强化学习

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

GTA：基于监督引导的大语言模型文本分类强化学习

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas2 more

摘要

用 AI 构建 AI

Hyper Newsletters

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas