8ヶ月前

テキストから画像生成

拡散モデル

セマンティックセグメンテーション

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Lvmin Zhang Anyi Rao Maneesh Agrawala

概要

私たちはControlNetを発表します。これは、大規模な事前学習済みテキストから画像への変換モデルに空間的な条件制御を追加するニューラルネットワークアーキテクチャです。ControlNetは、既存の大規模な生成モデルの機能を固定し、数十億枚の画像で事前学習された深く堅牢なエンコーディング層を強力なバックボーンとして再利用して、多様な条件付き制御を学習します。このニューラルアーキテクチャは、「ゼロ畳み込み」（zero-initialized convolution layers）と接続されており、パラメータがゼロから徐々に成長することを保証し、ファインチューニングに悪影響を与えるノイズが入らないようにしています。私たちはStable Diffusionを使用して、エッジ、深度、セグメンテーション、ヒューマンポーズなどのさまざまな条件制御を単一または複数の条件で、プロンプトあり・なしでテストしました。実験結果は、小規模（<5万枚）および大規模（>100万枚）データセットでのControlNetの訓練が堅牢であることを示しています。広範囲にわたる結果から、ControlNetが画像生成モデルの制御に幅広い応用をもたらす可能性があることが明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

テキストから画像生成

拡散モデル

セマンティックセグメンテーション

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Lvmin Zhang Anyi Rao Maneesh Agrawala

概要

私たちはControlNetを発表します。これは、大規模な事前学習済みテキストから画像への変換モデルに空間的な条件制御を追加するニューラルネットワークアーキテクチャです。ControlNetは、既存の大規模な生成モデルの機能を固定し、数十億枚の画像で事前学習された深く堅牢なエンコーディング層を強力なバックボーンとして再利用して、多様な条件付き制御を学習します。このニューラルアーキテクチャは、「ゼロ畳み込み」（zero-initialized convolution layers）と接続されており、パラメータがゼロから徐々に成長することを保証し、ファインチューニングに悪影響を与えるノイズが入らないようにしています。私たちはStable Diffusionを使用して、エッジ、深度、セグメンテーション、ヒューマンポーズなどのさまざまな条件制御を単一または複数の条件で、プロンプトあり・なしでテストしました。実験結果は、小規模（<5万枚）および大規模（>100万枚）データセットでのControlNetの訓練が堅牢であることを示しています。広範囲にわたる結果から、ControlNetが画像生成モデルの制御に幅広い応用をもたらす可能性があることが明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています