1ヶ月前

内なる声に耳を傾ける:中間特徴フィードバックによるControlNetの訓練の整合

Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov
内なる声に耳を傾ける:中間特徴フィードバックによるControlNetの訓練の整合
要約

テキストから画像へのディフュージョンモデルにおいて、生成出力の正確な空間制御を達成することは依然として困難です。ControlNetは、補助的な条件付けモジュールを導入することでこの問題に対処しますが、ControlNet++は最終的なデノイジングステップにのみサイクル一貫性損失を適用することにより、アライメントをさらに洗練しています。しかし、このアプローチは中間の生成ステージを無視しており、その効果が制限されています。そこで我々はInnerControlという訓練戦略を提案します。これは、すべてのディフュージョンステップで空間的一貫性を強制するものです。当手法では、軽量な畳み込みプローブを使用して、各デノイジングステップでの中間UNet特徴量から入力制御信号(例えば、エッジや深度)を再構築するように訓練します。これらのプローブは非常にノイジーな潜在変数からも効率的に信号を抽出でき、擬似真値制御信号の生成に寄与します。予測された条件と目標条件との乖離を全体的なディフュージョン過程を通じて最小化することで、当アライメント損失は制御精度と生成品質の両方を向上させます。既存の技術であるControlNet++と組み合わせることで、InnerControlは多様な条件付け方法(例えば、エッジや深度)において最先端の性能を達成しています。

内なる声に耳を傾ける:中間特徴フィードバックによるControlNetの訓練の整合 | 最新論文 | HyperAI超神経