Command Palette

Search for a command to run...

13 天前

GTA:基于监督引导的大语言模型文本分类强化学习

GTA:基于监督引导的大语言模型文本分类强化学习

摘要

在自然语言处理任务中,纯强化学习(RL)微调方法通常面临探索效率低和收敛速度慢的问题;而监督微调(SFT)方法虽然训练效率高,但其性能上限有限,且相较于RL,理论基础也相对薄弱。为解决效率与能力之间的权衡问题,我们提出了一种统一训练范式下的“猜测—思考—回答”(Guess-Think-Answer, GTA)框架,该框架融合了SFT的高效性与RL的能力提升优势。GTA通过让模型首先生成一个初步猜测(通过交叉熵损失进行优化),随后对这一猜测进行反思,再生成最终答案,其中强化学习奖励不仅用于优化最终输出,还用于塑造整个GTA结构的格式。这种混合方法在收敛速度上优于纯RL方法,在性能上限上则超越了纯SFT方法。为缓解两种训练信号之间的梯度冲突,我们引入了损失掩码(loss masking)与梯度约束机制。在四个文本分类基准上的实验结果表明,GTA显著加速了模型收敛,同时在性能上优于独立的SFT与RL基线方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GTA:基于监督引导的大语言模型文本分类强化学习 | 论文 | HyperAI超神经