Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

摘要
在推理阶段扩展计算能力已使大型语言模型(LLMs)在复杂推理任务中展现出强大的性能,但其固有的序列解码机制导致显著延迟,尤其在处理复杂任务时更为突出。近期研究致力于通过自适应并行推理来提升推理效率,即在有益情况下将问题求解过程分解为多个并行推理线程。然而,现有方法在真实任务上的表现仍存在局限:要么仅限于监督式行为克隆,要么相较于广泛使用的序列化长链思维(Chain-of-Thought, CoT)基线模型,准确率出现明显下降。此外,许多方法依赖定制化的推理引擎,增加了部署复杂性。为此,我们提出 ThreadWeaver——一种实现自适应并行推理的框架。该框架在与主流序列推理模型规模相当的前提下,实现了相当的准确率,同时显著降低了推理延迟。ThreadWeaver 的优异性能源于三项关键技术突破:1)一种两阶段并行轨迹生成器,能够生成大规模、高质量的 CoT 数据,并附带并行标注信息,用于监督微调;2)基于前缀树(trie)的训练-推理协同设计,使得模型可在任意现成的自回归推理引擎上实现并行推理,无需修改位置嵌入或键值缓存(KV cache);3)一种面向并行化的强化学习框架,引导模型在准确率与有效并行化之间取得平衡。在六个具有挑战性的数学推理基准测试中,基于 Qwen3-8B 构建的 ThreadWeaver 在平均准确率上达到 71.9%,在 AIME24 基准上更是达到 79.9%,与当前最先进的序列推理模型相当,同时在 token 级延迟上实现了最高达 1.53 倍的平均加速,成功建立了准确率与效率之间的全新帕累托前沿(Pareto frontier)。