HyperAIHyperAI

Command Palette

Search for a command to run...

ComfyUI-R1: ワークフロー生成のための推論モデルの探求

Zhenran Xu Yiyu Wang Xue Yang Longyue Wang Weihua Luo Kaifu Zhang Baotian Hu Min Zhang

概要

AI生成コンテンツは、モノリシックモデルからモジュール型ワークフローへと進化し、特にComfyUIのようなプラットフォームでは、クリエイティブなパイプラインのカスタマイズが可能となっています。しかし、効果的なワークフローを作成するには多くの専門知識が必要であり、多数の専門的なコンポーネントを統合するための学習曲線が急峻であることがユーザーにとって課題となっています。この課題に対処するために、私たちは自動ワークフロージェネレーション用の最初の大規模推論モデルであるComfyUI-R1を導入します。4,000以上のワークフローを収集したデータセットを基に、ノード選択、ワークフロー計画、コードレベルでのワークフローリプレゼンテーションを含む長い思考連鎖(Chain-of-Thought: CoT)推論データを構築しました。ComfyUI-R1は2段階フレームワークで訓練されます:(1) コールドスタート対応のCoT微調整を行い、モデルをComfyUIドメインに適応させます;(2) 推論能力の向上を促す強化学習を行い、細かいルールとメトリクスのハイブリッド報酬によって形式の有効性、構造的整合性、およびノードレベルの忠実度を確保します。実験結果によると、70億パラメータを持つ当社モデルは97%の形式有効性率を達成しており、高い合格率とノードレベル・グラフレベルでのF1スコアも示しています。これはGPT-4やClaudeシリーズなどの最先端のクローズドソースモデルを使用する従来の最先端手法よりも大幅に優れていることを示しています。さらに分析すると、推論プロセスが果たす重要な役割とワークフローをコードに変換することによる利点が明らかになりました。定性的比較では、多様なノードを使用して複雑なワークフローを合成する能力において当社モデルが優れていることが明らかになり、長さのあるCoT推論がAIアート創作における潜在力を示唆しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています