Command Palette
Search for a command to run...

摘要
尽管“深度推理”范式在数学等可验证领域推动了显著进展,但其在开放性、创造性生成任务中的应用仍面临重大挑战。目前主流的两种赋予模型推理能力的方法——强化学习(RL)与指令蒸馏——在该领域均表现不佳:强化学习受限于缺乏明确的奖励信号以及高质量奖励模型的缺失,而指令蒸馏则成本高昂,且受限于教师模型的能力上限。为克服这些局限,我们提出一种全新的范式——逆向工程推理(REverse-Engineered Reasoning, REER),从根本上改变了推理构建的方式。与传统方法通过试错或模仿自下而上地构建推理过程不同,REER采用“逆向”策略,从已知的优质解出发,通过计算手段挖掘出能够生成这些解的潜在、分步式的深度推理路径。基于这一可扩展、无需梯度的框架,我们构建并开源了DeepWriting-20K数据集,包含20,000条面向开放性任务的深度推理轨迹。基于该数据集训练的模型DeepWriter-8B,不仅超越了现有的强大开源基线模型,其性能在多项任务上甚至可与GPT-4o、Claude 3.5等领先闭源模型相媲美,部分场景下更表现优异。