HyperAI

Demo Zur Bilderzeugung Im EasyControl Ghibli-Stil

Effektbeispiele

1. Einführung in das Tutorial

EasyControl ist ein Projekt, dessen Ziel darin besteht, dem Diffusion Transformer eine effiziente und flexible Steuerung hinzuzufügen. Es wurde 2025 gemeinsam von Tiamat AI, der ShanghaiTech University, der National University of Singapore und Liblib AI entwickelt. Die zugehörigen Ergebnisse des Papiers sind „EasyControl: Effiziente und flexible Steuerung für Diffusionstransformatoren". Während sich die Architektur des Diffusionsmodells von einer Unet-basierten Struktur zu einem Diffusion Transformer (DiT) verschiebt, fehlt dem bestehenden DiT-Ökosystem eine ausgereifte Plug-in-Unterstützung und es ist mit Problemen wie Effizienzengpässen, Koordinationskonflikten bei mehreren Bedingungen und unzureichender Modellanpassungsfähigkeit konfrontiert. Um diese Probleme zu lösen, schlägt EasyControl ein effizientes und flexibles einheitliches bedingtes DiT-Framework vor. Durch die Einführung leichtgewichtiger LoRA-Module mit bedingter Injektion, ortsabhängiger Trainingsparadigmen und die Kombination von Mechanismen für kausale Aufmerksamkeit und KV-Cache-Technologie verbessert EasyControl die Modellkompatibilität erheblich, unterstützt Plug-and-Play-Funktionalität und verlustfreie Stilkontrolle; gleichzeitig verbessert es die Generierungsflexibilität und kann mehrere Auflösungen, Seitenverhältnisse und mehrere Bedingungskombinationen unterstützen; und optimiert die Inferenzeffizienz, wodurch das Modell zur Laufzeit effizienter wird.

Dieses Tutorial verwendet das stilisierte Img2Img-Steuerungsmodell, das Porträts in Kunstwerke im Stil von Hayao Miyazaki umwandeln kann. Es wurde mit nur 100 echten asiatischen Gesichtern und den entsprechenden, mit GPT-4o generierten Bildern im Ghibli-Stil trainiert, wobei die Gesichtszüge erhalten bleiben und die ikonische Anime-Ästhetik angewendet wird. Darüber hinaus hat EasyControl mit dem CFG-Zero-Team zusammengearbeitet, um die Bildtreue und Steuerbarkeit weiter zu verbessern. Das Team plant außerdem, die Modellleistung weiter zu optimieren und weitere Anwendungsszenarien zu erkunden. In Zukunft werden möglicherweise weitere vortrainierte Gewichte und Trainingscodes veröffentlicht, um die weitere Forschung und Entwicklung in der Community zu unterstützen.

Dieses Tutorial verwendet EasyControl als Demonstration und die Rechenressource verwendet A6000.

2. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

Wenn „BadGateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 1–2 Minuten und aktualisieren Sie die Seite.

2. Sobald Sie die Website betreten, können Sie beginnen zu verwenden

Anwendung

Demo

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓