Command Palette
Search for a command to run...
Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

摘要
我们提出了一种用于语言模型的变分推理框架,将思维轨迹(thinking traces)视为隐变量,并通过变分推断对其进行优化。从证据下界(ELBO)出发,我们将其扩展为一种多轨迹目标函数,以获得更紧的下界,并提出了一个前向KL(forward-KL)形式,有效稳定了变分后验的训练过程。进一步地,我们证明了拒绝采样微调(rejection sampling fine-tuning)与二值奖励强化学习(binary-reward RL),包括GRPO方法,均可被解释为局部前向KL目标函数。在推导过程中,模型准确率自然地产生隐式加权机制,揭示了此前未被注意的对较简单问题的偏好偏差。我们在Qwen 2.5和Qwen 3模型系列上,针对广泛多样的推理任务对所提方法进行了实证验证。总体而言,本工作提供了一个严谨的概率视角,将变分推断与强化学习风格的方法统一起来,并生成了稳定的目标函数,有助于提升语言模型的推理能力。相关代码已开源,地址为:https://github.com/sail-sg/variational-reasoning。