Command Palette
Search for a command to run...
ComfyUI Chroma 工作流在线教程
摘要
一句话总结
本文作者提出了 ComfyGPT,一种自优化的多 Agent 系统,包含 ReformatAgent、FlowAgent、RefineAgent 和 ExecuteAgent。该系统通过聚焦于精确的节点连接而非完整工作流,并结合强化学习,能够根据任务描述自动生成 ComfyUI 工作流。同时,作者构建了 FlowDataset、FlowBench 及四项新型评估指标,以证明该方法相较于现有基于大语言模型的方法具有显著优势。
核心贡献
- 本文提出了 ComfyGPT,一种自优化的多 Agent 框架,可将自然语言任务描述自动转换为功能完整的 ComfyUI 工作流。该架构依次部署四个专用 Agent(包括 ReformatAgent、FlowAgent、RefineAgent 和 ExecuteAgent),分别负责解析输入、生成工作流图、优化节点连接以及编译最终的 JSON 输出。
- 该方法通过聚焦于精确的节点连接而非单步生成完整工作流来提升生成准确率。基于 GRPO 算法的强化学习持续优化 Agent 推理过程,从而减少误差累积并增强流水线适应性。
- 本研究提供了包含 13,571 个工作流描述配对的大规模数据集 FlowDataset,并建立了 FlowBench 基准及四项新型评估指标以标准化性能评估。实验结果表明,该系统在自动化工作流生成方面优于现有的基于大语言模型的方法。
引言
本文作者提出了 ComfyGPT,一种自优化的多 Agent 系统,可实现从自然语言指令自动生成 ComfyUI 工作流。ComfyUI 提供了基于节点的灵活接口以构建复杂的图像生成流水线,但由于节点连接拓扑结构复杂且现有模板难以适配多样化任务,手动设计工作流仍是主要瓶颈。现有的基于大语言模型的解决方案通常依赖开环架构或受限的微调,导致误差累积、上下文限制以及对高级多阶段生成需求的覆盖不足。为克服这些挑战,作者提出了一种模块化方法,专注于生成精确的节点连接而非完整工作流,并结合基于 GRPO 的强化学习实现自主纠错与迭代优化。该方法使系统能够生成拓扑一致且高度准确的工作流,在综合评估指标上显著优于先前基线。
数据集
-
数据集构成与来源: 作者通过爬取 OpenArt、LibLib、ComfyWorkflows 和 Civitai 等主要 ComfyUI 社区平台上的工作流描述配对数据,构建了 FlowDataset。最终收集的数据集包含 13,571 条条目,划分为六个核心类别和六个专用子类别。
-
子集详情与规模: 数据集被划分为包含 12,571 个样本的训练集和专用评估基准 FlowBench。FlowBench 包含 1,000 个样本,按各比例从每个类别中采样,同时保留工作流长度分布。六个核心类别包括文本到图像生成、图像编辑、风格迁移、3D 生成、视频编辑或生成以及其他类别,其中图像编辑进一步细分为高清超分辨率、重绘、外绘、基于角色的引导、换脸以及背景修改或移除。
-
数据使用与训练策略: 作者使用包含 12,571 个样本的训练集来开发和微调 FlowAgent 模型。FlowBench 作为标准化基准用于评估 ComfyGPT,通过格式验证、通过率、指令对齐率和节点多样性进行性能衡量。
-
处理流水线与元数据构建: 数据准备遵循六个阶段的流水线。初始爬取阶段提取标题、标签、描述和 JSON 工作流等元数据。清洗阶段执行严格的 JSON 模式验证,解决模糊的节点连接,移除 Reroute 和 Note 等冗余节点,过滤断开的图结构,并验证参数兼容性。随后,作者部署 ChatGPT-4o-mini 将嘈杂的描述转换为简洁的功能性指令,并自动化类别分配。在最终划分前,验证执行成功率,仅保留在 ComfyUI 服务器上通过率至少达到 70% 的工作流。每个最终条目将精炼的自然语言指令与其对应的 JSON 工作流及类别标签配对。
方法
作者利用 ComfyUI 的模块化架构(将模型推理分解为一组相互连接的节点),设计了 ComfyGPT,一种用于从自然语言指令生成 ComfyUI 工作流的自优化多 Agent 系统。该系统以流水线形式运行,由四个专用 Agent 组成:ReformatAgent、FlowAgent、RefineAgent 和 ExecuteAgent,分别负责工作流生成过程中的不同阶段。
ComfyUI 的原生工作流表示采用 JSON 格式存储节点信息,其中每个节点 nk 具有多个逻辑输入 Ik 和输出 Ok。这些节点相互连接以形成拓扑工作流结构。然而,该 JSON 格式通常较长且包含冗余信息,受限于上下文长度,大语言模型(LLM)难以处理。为此,ReformatAgent 将复杂的 JSON 工作流转换为简化且更直观的逻辑图 D,表示为节点间链接 li 的集合。每个链接 li 定义为 [nout,Ojout,nin,Ikin],捕获从发出节点特定输出到接收节点特定输入的连接。下图所示的转换聚焦于节点间的关系而非完整配置,从而降低复杂度并提升后续 Agent 的可读性。
FlowAgent 是核心组件,负责根据用户的自然语言指令生成工作流图。为克服幻觉和上下文限制等挑战,其采用两阶段训练过程。第一阶段为监督微调(SFT),模型在包含工作流描述 desc 及其对应图表示 d 的数据集上进行训练。目标是通过 SFT 目标函数最大化生成构成图的正确 token 序列的概率。第二阶段为基于 GRPO 算法的强化学习(RL),模型在此阶段进行自我纠错与迭代优化。RL 目标函数引入了奖励模型,对生成未包含在预定义有效集合 NT 中的节点进行惩罚,从而确保生成的图结构合理且不含虚构节点。该两阶段训练使 FlowAgent 能够生成准确可靠的工作流图。
尽管 SFT 和 RL 带来了改进,但由于 ComfyUI 生态系统的更新,生成的图仍可能包含过时或不准确的节点名称。RefineAgent 作为二次检查与修正机制来解决此问题。它将大语言模型与知识检索能力相结合,利用包含 6,362 个唯一节点信息的持续更新节点数据库 K。对于错误节点 nic,RefineAgent 使用嵌入向量和余弦相似度计算其与 K 中所有节点的语义相似度。随后检索最相似的 k 个节点,并提示 LLM 根据工作流图、用户指令和候选节点选择最合适的替换节点 nc。该过程确保系统保持更新并能适应底层平台的变化。
最后,ExecuteAgent 将优化后的工作流图转换回兼容 ComfyUI 的 JSON 格式。此步骤反转了 ReformatAgent 执行的转换,重建完整的节点配置。生成的 JSON 工作流随后上传至 ComfyUI 服务器并执行,以生成所需的输出图像,从而完成端到端流程。从用户指令到输出的整个流水线设计具备鲁棒性、灵活性,并能处理多种图像生成任务。
实验
该评估将 ComfyGPT 与成熟的 Multi-Agent 框架、闭源模型及开源基线进行对比,以验证其自动化工作流生成能力。定量与定性评估证实,其专用 Agent 架构与强化学习流水线显著提升了指令对齐度、生成准确率以及对误差传播的鲁棒性。消融研究与用户反馈进一步表明,各组件对系统稳定性均有实质性贡献,且该框架能可靠适配复杂提示词,并支持灵活的人机协同调整。总体而言,研究结果确立了 ComfyGPT 作为构建 ComfyUI 工作流的高精度实用标准。
作者在基准测试中对 ComfyGPT 与多种基线方法进行评估,结果显示 ComfyGPT 在格式验证、通过率及节点多样性等多项指标上表现优异。结果表明,ComfyGPT 优于闭源模型与开源方法,在关键领域取得显著提升。系统各组件共同贡献于整体效能,强化学习的使用进一步增强了性能。与基线方法相比,ComfyGPT 在所有评估指标上均展现出优越性能。强化学习与专用 Agent 的集成显著提升了工作流准确率与验证效果。ComfyGPT 实现了更高的节点多样性与通过率,表明其具备稳健且多样化的工作流生成能力。
作者在 FlowBench 和 ComfyBench 两个基准上,使用多项指标对 ComfyGPT 与多种基线方法进行对比评估。结果表明,ComfyGPT 在所有指标上均优于对比方法,在通过率与格式验证方面取得显著提升,证明了其有效性与鲁棒性。在两个基准上,ComfyGPT 均展现出超越基线方法的综合性能。模型在通过率与格式验证上的显著改善,反映出其具备强大的任务理解能力与工作流生成精度。ComfyGPT 系统各组件共同推动整体性能提升,强化学习为准确率带来了增量收益。
作者通过分析多 Agent 系统中各组件的贡献,评估了 ComfyGPT 在 FlowBench 上的性能。结果表明,移除任意 Agent 均会导致各项指标下降,完整系统在全部评估维度上取得最高性能。消融研究强调,所有组件的组合对实现最优结果至关重要,尤其在格式验证、通过率与指令对齐方面。从 ComfyGPT 中移除任意 Agent 都会导致全指标性能下滑。完整 ComfyGPT 系统在格式验证、通过率及指令对齐上获得最高得分。各组件在提升系统整体性能方面均发挥重要作用。
作者开展消融研究以评估超参数 k 对通过率(PA)的影响,观察到 PA 随 k 从 1 增至 5 而上升,在 k=7 时略有下降。结果表明,k=5 时性能最佳,说明检索过程在此处达到最优平衡。随着检索参数 k 从 1 增至 5,通过率逐步提升。最高通过率出现在 k=5,随后在 k=7 时轻微回落。该趋势表明,k=5 为性能提供了最优的检索配置。
作者在基准测试中将 ComfyGPT 与基线方法进行对比,结果显示 ComfyGPT 实现了显著更高的通过率。结果表明,ComfyGPT 在各项评估指标上均优于其他方法,证明了其在生成准确且对齐工作流方面的有效性。与其他方法相比,ComfyGPT 获得了最高通过率。ComfyGPT 在所有评估指标上的性能均显著优于基线。ComfyGPT 展现出生成符合用户指令工作流的强大能力。
作者在 FlowBench 和 ComfyBench 基准上,将 ComfyGPT 与多种闭源及开源基线进行对比,以评估其整体工作流生成能力。主要对比与消融研究验证了模型持续超越现有方法,证实每个多 Agent 组件及强化学习集成对维持高鲁棒性准确率与严格格式合规性至关重要。额外的超参数调优实验确定了能有效平衡性能的最优检索设置。综合而言,这些结果证明 ComfyGPT 能够可靠地生成多样化、高精度且与指令对齐的工作流,同时优于当前最先进的方法。