Écouter la Voix Intérieure : Alignement de l'Entraînement de ControlNet par le Biais des Caractéristiques Intermédiaires

Malgré des progrès significatifs dans les modèles de diffusion texte-image, atteindre un contrôle spatial précis sur les sorties générées reste un défi. ControlNet répond à ce problème en introduisant un module de conditionnement auxiliaire, tandis que ControlNet++ affine davantage l'alignement grâce à une perte de cohérence cyclique appliquée uniquement aux dernières étapes de débruitage. Cependant, cette approche néglige les étapes intermédiaires de génération, limitant ainsi son efficacité. Nous proposons InnerControl, une stratégie d'entraînement qui impose la cohérence spatiale à toutes les étapes de diffusion. Notre méthode entraîne des sondes convolutionnelles légères pour reconstruire des signaux de contrôle d'entrée (par exemple, contours, profondeur) à partir des caractéristiques intermédiaires du UNet à chaque étape de débruitage. Ces sondes extraient efficacement les signaux même à partir de latents très bruyants, permettant la création de contrôles pseudo-vrais pour l'entraînement. En minimisant l'écart entre les conditions prédites et cibles tout au long du processus de diffusion, notre perte d'alignement améliore à la fois la fidélité du contrôle et la qualité de la génération. Associée à des techniques établies comme ControlNet++, InnerControl atteint des performances de pointe dans diverses méthodes de conditionnement (par exemple, contours, profondeur).