12 天前

超越权衡:用于推理模型指令遵循的自监督强化学习

Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
超越权衡:用于推理模型指令遵循的自监督强化学习
摘要

推理模型在复杂问题求解方面表现出色,但其推理能力与指令遵循能力之间存在令人担忧的权衡。现有提升指令遵循能力的方法依赖于更强的外部模型,这带来了方法论上的瓶颈以及实际应用中的诸多限制,包括成本上升和可访问性受限等问题。为此,我们提出一种自监督强化学习框架,利用推理模型自身的内部信号来提升指令遵循能力,无需外部监督。大量实验表明,该框架在保持原有推理性能的同时,显著提升了指令遵循能力,为增强推理模型的指令遵循能力提供了一种可扩展且成本低廉的解决方案。相关数据与代码已公开,获取地址为:https://github.com/Rainier-rq/verl-if。