
要約
私たちはControlNetを発表します。これは、大規模な事前学習済みテキストから画像への変換モデルに空間的な条件制御を追加するニューラルネットワークアーキテクチャです。ControlNetは、既存の大規模な生成モデルの機能を固定し、数十億枚の画像で事前学習された深く堅牢なエンコーディング層を強力なバックボーンとして再利用して、多様な条件付き制御を学習します。このニューラルアーキテクチャは、「ゼロ畳み込み」(zero-initialized convolution layers)と接続されており、パラメータがゼロから徐々に成長することを保証し、ファインチューニングに悪影響を与えるノイズが入らないようにしています。私たちはStable Diffusionを使用して、エッジ、深度、セグメンテーション、ヒューマンポーズなどのさまざまな条件制御を単一または複数の条件で、プロンプトあり・なしでテストしました。実験結果は、小規模(<5万枚)および大規模(>100万枚)データセットでのControlNetの訓練が堅牢であることを示しています。広範囲にわたる結果から、ControlNetが画像生成モデルの制御に幅広い応用をもたらす可能性があることが明らかになりました。