HyperAI

OminiControl Multifunktionale Bilderzeugung Und -steuerung

OmniControl
GitHub Stars
GitHub-Lizenz
arXiv

1. Einführung in das Tutorial

OminiControl ist ein minimales, aber leistungsstarkes allgemeines Steuerungsframework, das im Dezember 2024 vom XML Lab der National University of Singapore veröffentlicht wurde und für Diffusion Transformer-Modelle wie FLUX geeignet ist. Sie können Ihre eigenen OminiControl-Modelle erstellen, indem Sie jede Steuerungsaufgabe (3D, Multi-View, Gestenführung usw.) mithilfe von FLUX-Modellen anpassen. Die relevanten Papierergebnisse sindOminiControl: Minimale und universelle Steuerung für Diffusionstransformatoren".

Universelle Steuerung 🌐 : Ein einheitliches Steuerungsframework, das sowohl agentengesteuerte als auch räumliche Steuerung unterstützt (z. B. kantengeführte und In-Painting-Generierung).

Minimalistisches Design 🚀 : Steuersignale unter Beibehaltung der ursprünglichen Modellstruktur einspeisen. Dem Basismodell wird lediglich ein zusätzlicher Parameter von 0,1% eingeführt.

Dieses Tutorial basiert auf dem allgemeinen Steuerungsframework OminiControl und implementiert die themengesteuerte Generierung und räumliche Steuerung von Bildern. Als Rechenleistungsressource wird eine einzelne Karte A6000 verwendet.

Effektbeispiele

1. Themenorientierte Generierung

Demo(Links: Bedingtes Bild; Rechts: Generiertes Bild)

Textaufforderungswort

  • Tipp 1:Eine Nahaufnahme, die den Artikel zeigt. Auf einem Holztisch platziert, mit einem dunklen Raum im Hintergrund, einem eingeschalteten Fernseher und einer Kochsendung auf dem Bildschirm und den Worten „Omini Control!“
  • Hinweis 2:Aufnahmen im Kinostil. Auf der Mondoberfläche wurde das Objekt mit einer Flagge mit dem Wort „Omini“ auf seinem Körper über die Mondoberfläche gefahren. Im Hintergrund ist der riesige Globus zu sehen, der den Vordergrund einnimmt.
  • Hinweis 3:In dem im Bauhaus-Stil gestalteten Raum stehen die Gegenstände auf einem glänzenden Glastisch, neben einer mit Blumen gefüllten Vase. In der Nachmittagssonne wurden die Schatten der Jalousien an die Wand geworfen.
  • Hinweis 4:Eine Frau sitzt unter einem „Omini“-Sonnenschirm am Strand. Sie trägt dieses T-Shirt, hat ein breites Lächeln im Gesicht und ein Surfbrett hinter sich. Der Hintergrund ist ein orange-violetter Himmel bei Sonnenuntergang.

2. Räumliche Ausrichtungskontrolle

Bildretusche(Links: Originalbild; Mitte: Maskenbild; Rechts: Füllergebnis)

  • Tipps:Mona Lisa trägt ein weißes VR-Headset mit dem Aufdruck „Omini“.
  • Tipps:Auf dem gelben Buchdeckel ist in großer Schrift das Wort „OMINI“ aufgedruckt, darunter steht der Text „for FLUX“.

2. Bedienungsschritte

Wenn „Modell“ nicht angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Nach dem Aufrufen der Webseite können Sie die themenorientierte Generierung (Subject) und räumliche Steuerung (Spatial) erleben.

Hinweis: Das Umschalten zwischen den beiden Modellen dauert etwa 30 bis 70 Sekunden, bitte haben Sie Geduld.

Themenorientierte Generierung:  Der Benutzer kann die themengesteuerte Generierung abschließen, indem er ein Bild eines Objekts und eine Textbeschreibung der Zielszene bereitstellt, in der sich das Objekt befindet.

Raumkontrolle:  Es umfasst Vorgänge wie Bildwiederherstellung und Canny. Der Benutzer stellt ein Bild eines Objekts und eine Textbeschreibung der Änderungen am Objekt bereit, um die räumliche Kontrolle des Bildes zu vervollständigen. 

Themengetriebener Generationseffekt (Subjekt) 

Räumliche Steuerung - Bildwiederherstellungseffekt (räumlich) 

Zitationsinformationen

Dank an den GitHub-Benutzer SuperYang  Für die Erstellung dieses Tutorials lauten die Projektreferenzinformationen wie folgt:

@article{tan2024ominicontrol,
  title={Ominicontrol: Minimal and universal control for diffusion transformer},
  author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
  journal={arXiv preprint arXiv:2411.15098},
  volume={3},
  year={2024}
}

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓