ComfyUI-R1:探索用于工作流生成的推理模型
Zhenran Xu, Yiyu Wang, Xue Yang, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
发布日期: 6/12/2025

摘要
人工智能生成的内容已经从单一模型发展到模块化工作流,特别是在像ComfyUI这样的平台上,使得创意流程中的定制化成为可能。然而,构建高效的工作流需要深厚的专业知识来协调众多专门组件,这对用户来说构成了较高的学习门槛。为了解决这一挑战,我们推出了ComfyUI-R1,这是首个用于自动化工作流生成的大规模推理模型。基于我们精心整理的包含4000个工作流的数据集,我们构建了长链式思维(CoT)推理数据,包括节点选择、工作流规划和代码级工作流表示。ComfyUI-R1通过两阶段框架进行训练:(1) CoT微调以应对冷启动问题,使模型适应ComfyUI领域;(2) 强化学习以激励推理能力,由细粒度规则-指标混合奖励引导,确保格式有效性、结构完整性和节点级保真度。实验结果表明,我们的70亿参数模型达到了97%的格式有效性率,并且在高通过率、节点级和图级F1分数方面表现出色,显著超越了使用领先闭源模型如GPT-4和Claude系列的先前最先进方法。进一步分析突显了推理过程的关键作用以及将工作流转化为代码的优势。定性比较显示我们在合成复杂且多样的节点工作流方面具有优势,强调了长链式思维推理在人工智能艺术创作中的潜力。