Command Palette
Search for a command to run...
ComfyUI-R1: 워크플로 생성을 위한 추론 모델 탐구
ComfyUI-R1: 워크플로 생성을 위한 추론 모델 탐구
Zhenran Xu Yiyu Wang Xue Yang Longyue Wang Weihua Luo Kaifu Zhang Baotian Hu Min Zhang
초록
AI 생성 콘텐츠는 모노리식 모델에서 모듈화된 워크플로우로 진화하였으며, 특히 ComfyUI와 같은 플랫폼에서는 창의적인 파이프라인의 맞춤화를 가능하게 하였습니다. 그러나 효과적인 워크플로우를 구축하기 위해서는 많은 전문 지식이 필요하여, 사용자에게 높은 학습 곡선을 제공합니다. 이 문제를 해결하기 위해, 우리는 자동 워크플로우 생성을 위한 첫 번째 대형 추론 모델인 ComfyUI-R1을 소개합니다. 4천 개의 워크플로우를 큐레이팅한 데이터셋으로 시작하여, 노드 선택, 워크플로우 계획 및 코드 수준의 워크플로우 표현을 포함하는 긴 사슬 추론(Chain-of-Thought, CoT) 데이터를 구성하였습니다.ComfyUI-R1은 두 단계 프레임워크를 통해 훈련됩니다: (1) CoT 미세 조정으로 차가운 시작(cold start)에 적응시키며, 모델을 ComfyUI 영역에 맞춥니다; (2) 세부적인 규칙-지표 혼합 보상(fine-grained rule-metric hybrid reward)에 의해 안내되는 강화 학습으로 추론 능력을 유도하며, 형식 유효성, 구조적 정합성 및 노드 수준의 충실성을 보장합니다. 실험 결과, 우리의 70억 매개변수 모델은 97%의 형식 유효성 비율과 높은 통과율, 노드 수준 및 그래프 수준 F1 점수를 달성하였으며, GPT-4와 Claude 시리즈 등 선두 폐쇄 소스 모델을 사용하는 기존 최신 방법들을 크게 능가하였습니다.추가 분석에서는 추론 과정의 중요한 역할과 워크플로우를 코드로 변환하는 장점을 강조하였습니다. 질적 비교에서는 다양한 노드를 포함하는 복잡한 워크플로우를 합성하는 우리의 우수성을 드러냈으며, 긴 CoT 추론이 AI 아트 크리에이션에서 갖는 잠재력을 부각시켰습니다.