Command Palette
Search for a command to run...
ComfyUI-R1: Erkundung von Schließungsmodellen für die Workflow-Generierung
ComfyUI-R1: Erkundung von Schließungsmodellen für die Workflow-Generierung
Zhenran Xu Yiyu Wang Xue Yang Longyue Wang Weihua Luo Kaifu Zhang Baotian Hu Min Zhang
Zusammenfassung
Künstlich generierter Inhalt ist von monolithischen Modellen zu modularen Workflows entwickelt worden, insbesondere auf Plattformen wie ComfyUI, was die Anpassung in kreativen Pipelines ermöglicht. Allerdings erfordert das Erstellen effektiver Workflows umfangreiches Fachwissen zur Koordination zahlreicher spezialisierter Komponenten, was für Benutzer eine steile Lernkurve darstellt. Um dieser Herausforderung zu begegnen, stellen wir ComfyUI-R1 vor, das erste große Modell zur automatisierten Workflow-Erstellung. Ausgehend von unserem kurationellen Datensatz mit 4.000 Workflows bauen wir langkettige Denkprozess-Daten (Chain-of-Thought, CoT) auf, einschließlich Knotenauswahl, Workflow-Planung und codebasierter Workflow-Darstellung. ComfyUI-R1 wird durch ein zweistufiges Framework trainiert: (1) CoT-Fine-Tuning für den kalten Start, um Modelle an den ComfyUI-Bereich anzupassen; (2) Verstärkungslernen zur Förderung der Denkfähigkeit, geleitet durch eine feingranulare Regel-Metrik-Hybridbelohnung, die Formatgültigkeit, strukturelle Integrität und knotenbasierte Treue sicherstellt. Experimente zeigen, dass unser Modell mit 7 Milliarden Parametern eine Gültigkeitsrate des Formats von 97 % erreicht und gleichzeitig hohe Durchlauf-, knotenbasierte und graphbasierte F1-Werte aufweist, wodurch es deutlich über bisherigen Stand der Technik hinausgeht, der führende geschlossene Quelltextmodelle wie GPT-4o und die Claude-Reihe verwendet. Eine weitere Analyse unterstreicht die entscheidende Rolle des Denkprozesses sowie den Vorteil der Transformation von Workflows in Code. Ein qualitativer Vergleich zeigt unsere Stärke bei der Synthese komplexer Workflows mit vielfältigen Knotenpunkten und verdeutlicht das Potenzial langer CoT-Denkprozesse in der KI-gestützten Kunstschaffens.