초록

AI 생성 콘텐츠는 모노리식 모델에서 모듈화된 워크플로우로 진화하였으며, 특히 ComfyUI와 같은 플랫폼에서는 창의적인 파이프라인의 맞춤화를 가능하게 하였습니다. 그러나 효과적인 워크플로우를 구축하기 위해서는 많은 전문 지식이 필요하여, 사용자에게 높은 학습 곡선을 제공합니다. 이 문제를 해결하기 위해, 우리는 자동 워크플로우 생성을 위한 첫 번째 대형 추론 모델인 ComfyUI-R1을 소개합니다. 4천 개의 워크플로우를 큐레이팅한 데이터셋으로 시작하여, 노드 선택, 워크플로우 계획 및 코드 수준의 워크플로우 표현을 포함하는 긴 사슬 추론(Chain-of-Thought, CoT) 데이터를 구성하였습니다.ComfyUI-R1은 두 단계 프레임워크를 통해 훈련됩니다: (1) CoT 미세 조정으로 차가운 시작(cold start)에 적응시키며, 모델을 ComfyUI 영역에 맞춥니다; (2) 세부적인 규칙-지표 혼합 보상(fine-grained rule-metric hybrid reward)에 의해 안내되는 강화 학습으로 추론 능력을 유도하며, 형식 유효성, 구조적 정합성 및 노드 수준의 충실성을 보장합니다. 실험 결과, 우리의 70억 매개변수 모델은 97%의 형식 유효성 비율과 높은 통과율, 노드 수준 및 그래프 수준 F1 점수를 달성하였으며, GPT-4와 Claude 시리즈 등 선두 폐쇄 소스 모델을 사용하는 기존 최신 방법들을 크게 능가하였습니다.추가 분석에서는 추론 과정의 중요한 역할과 워크플로우를 코드로 변환하는 장점을 강조하였습니다. 질적 비교에서는 다양한 노드를 포함하는 복잡한 워크플로우를 합성하는 우리의 우수성을 드러냈으며, 긴 CoT 추론이 AI 아트 크리에이션에서 갖는 잠재력을 부각시켰습니다.

소스 PDF 코드 보기