HyperAIHyperAI
vor 2 Monaten

BoxDiff: Text-zu-Bild-Synthese mit box-restringierter Diffusion ohne Training

Xie, Jinheng ; Li, Yuexiang ; Huang, Yawen ; Liu, Haozhe ; Zhang, Wentian ; Zheng, Yefeng ; Shou, Mike Zheng
BoxDiff: Text-zu-Bild-Synthese mit box-restringierter Diffusion ohne Training
Abstract

Kürzliche Text-zu-Bild-Diffusionsmodelle haben eine erstaunliche Fähigkeit zur Generierung hochwertiger Bilder gezeigt. Dennoch konzentrierten sich die Forscher hauptsächlich auf die Synthese von Bildern unter Verwendung von reinen Textanweisungen. Obwohl einige Arbeiten andere Modalitäten als Bedingungen untersucht haben, sind erhebliche Mengen an gepaarten Daten, wie z.B. Boxen-/Maske-Bild-Paaren, und lange Feinabstimmungszeiten erforderlich, um die Modelle zu trainieren. Da die Erstellung solcher gepaarter Daten zeitaufwendig und arbeitsintensiv ist und auf einen geschlossenen Datensatz beschränkt bleibt, könnte dies das Engpass für Anwendungen in einer offenen Welt werden. In diesem Artikel wird der einfachste Form von Nutzer bereitgestellten Bedingungen, wie z.B. Boxen oder Skizzen, im Fokus genommen. Um das oben beschriebene Problem zu mildern, schlagen wir eine trainingsfreie Methode vor, um Objekte und Kontexte in den synthetisierten Bildern gemäß den vorgegebenen räumlichen Bedingungen zu steuern. Insbesondere wurden drei räumliche Einschränkungen – Inner-Box (Inner-Box), Outer-Box (Outer-Box) und Ecken-Einschränkungen (Corner Constraints) – entwickelt und nahtlos in den Entrauschungsschritt der Diffusionsmodelle integriert, ohne zusätzliches Training oder große Mengen annotierter Layoutdaten zu benötigen. Ausführliche experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Einschränkungen bestimmen können, was und wo in den Bildern präsentiert wird, während sie gleichzeitig die Fähigkeit der Diffusionsmodelle beibehalten, mit hoher Treue und vielfältiger Konzeptabdeckung zu synthetisieren. Der Code ist öffentlich verfügbar unter https://github.com/showlab/BoxDiff.

BoxDiff: Text-zu-Bild-Synthese mit box-restringierter Diffusion ohne Training | Neueste Forschungsarbeiten | HyperAI