Command Palette
Search for a command to run...
ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de flux de travail
ComfyUI-R1 : Exploration des modèles de raisonnement pour la génération de flux de travail
Zhenran Xu Yiyu Wang Xue Yang Longyue Wang Weihua Luo Kaifu Zhang Baotian Hu Min Zhang
Résumé
Le contenu généré par IA a évolué des modèles monolithiques vers des flux de travail modulaires, en particulier sur des plateformes comme ComfyUI, permettant une personnalisation dans les pipelines créatifs. Cependant, la création de flux de travail efficaces nécessite une grande expertise pour orchestrer de nombreux composants spécialisés, ce qui présente une courbe d'apprentissage abrupte pour les utilisateurs. Pour relever ce défi, nous présentons ComfyUI-R1, le premier grand modèle de raisonnement pour la génération automatique de flux de travail. Partant d'un ensemble de données curatif comprenant 4 000 flux de travail, nous construisons des données de raisonnement à chaîne longue (CoT), incluant la sélection des nœuds, la planification des flux de travail et leur représentation au niveau du code. ComfyUI-R1 est formé à travers un cadre en deux étapes : (1) l'ajustement fin CoT pour le démarrage à froid, adaptant les modèles au domaine de ComfyUI ; (2) l'apprentissage par renforcement pour encourager la capacité de raisonnement, guidé par une récompense hybride fine-grainée basée sur des règles et des métriques, garantissant la validité du format, l'intégrité structurelle et la fidélité au niveau des nœuds. Les expériences montrent que notre modèle à 7 milliards de paramètres atteint un taux de validité du format de 97 %, ainsi qu'une forte proportion réussie et des scores F1 élevés au niveau des nœuds et du graphe, surpassant considérablement les méthodes précédentes d'avant-garde qui utilisent des modèles propriétaires tels que GPT-4o et la série Claude. Une analyse supplémentaire met en lumière le rôle crucial du processus de raisonnement et l'avantage de transformer les flux de travail en code. La comparaison qualitative révèle notre force dans la synthèse de flux de travail complexes avec divers nœuds, soulignant le potentiel du raisonnement CoT long dans la création artistique par IA.