HyperAI

OminiControl Génération Et Contrôle D'images Multifonctionnels

OminiControl
Étoiles GitHub
Licence GitHub
arXiv

1. Introduction au tutoriel

OminiControl est un framework de contrôle général minimal mais puissant publié par le XML Lab de l'Université nationale de Singapour en décembre 2024, adapté aux modèles de transformateurs de diffusion tels que FLUX. Vous pouvez créer vos propres modèles OminiControl en personnalisant n'importe quelle tâche de contrôle (3D, multi-vues, guidage gestuel, etc.) à l'aide des modèles FLUX. Les résultats pertinents de l'article sontOminiControl : Contrôle minimal et universel pour transformateur de diffusion".

Contrôle universel 🌐 :Un cadre de contrôle unifié qui prend en charge à la fois le contrôle piloté par agent et le contrôle spatial (par exemple, la génération guidée par les bords et la génération en peinture).

Design minimaliste 🚀 :Injectez des signaux de contrôle tout en conservant la structure du modèle d'origine. Seul un paramètre supplémentaire de 0,1% est introduit dans le modèle de base.

Ce tutoriel est basé sur le framework de contrôle général OminiControl et implémente la génération thématique et le contrôle spatial des images. La ressource de puissance de calcul utilise une seule carte A6000.

Exemples d'effets

1. Génération thématique

Démo(Gauche : image conditionnelle ; droite : image générée)

Mot d'invite de texte

  • Astuce 1 :Un gros plan montrant l'objet. Placé sur une table en bois, avec une pièce sombre en arrière-plan, une télévision allumée et une émission de cuisine diffusée sur l'écran, et les mots « Omini Control !
  • Indice 2 :Plans de style cinématographique. Sur la surface lunaire, l'objet a été conduit sur la surface lunaire avec un drapeau avec le mot « Omini » sur son corps. À l'arrière-plan se trouve l'immense globe qui occupe le premier plan.
  • Indice 3 :Dans la salle de style Bauhaus, les objets sont placés sur une table en verre brillant, à côté d'un vase rempli de fleurs. Sous le soleil de l’après-midi, les ombres des stores se projetaient sur le mur.
  • Indice 4 :Une femme est vue assise sous un parasol « Omini » sur la plage, portant cette chemise avec un grand sourire sur son visage et une planche de surf derrière elle. L'arrière-plan est un ciel orange-violet au coucher du soleil.

2. Contrôle de l'alignement spatial

Retouche d'image(Gauche : image originale ; Milieu : image du masque ; Droite : résultat du remplissage)

  • Conseils:Mona Lisa porte un casque VR blanc sur lequel est imprimé le mot « Omini ».
  • Conseils:La couverture jaune du livre comporte le mot « OMINI » imprimé en gros caractères et le texte « pour FLUX » apparaît en bas.

2. Étapes de l'opération

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Après avoir accédé à la page Web, vous pouvez expérimenter la génération basée sur le thème (Sujet) et le contrôle spatial (Spatial)

Remarque : il faut environ 30 à 70 secondes pour basculer entre les deux modèles, veuillez être patient.

Génération axée sur le thème :  L'utilisateur peut compléter la génération thématique en fournissant une image d'un objet et une description textuelle de la scène cible où se trouve l'objet.

Contrôle de l'espace :  Il comprend des opérations telles que la restauration d'image et Canny. L'utilisateur fournit une image d'un objet et une description textuelle des modifications apportées à l'objet pour compléter le contrôle spatial de l'image. 

Effet de génération axé sur le thème (Sujet) 

Contrôle spatial - Effet de restauration d'image (spatial) 

Informations sur la citation

Merci à l'utilisateur de GitHub SuperYang  Pour la réalisation de ce tutoriel, les informations de référence du projet sont les suivantes :

@article{tan2024ominicontrol,
  title={Ominicontrol: Minimal and universal control for diffusion transformer},
  author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
  journal={arXiv preprint arXiv:2411.15098},
  volume={3},
  year={2024}
}

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓