HyperAIHyperAI

Command Palette

Search for a command to run...

BoxDiff: Text-zu-Bild-Synthese mit box-restringierter Diffusion ohne Training

Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou

Zusammenfassung

Kürzliche Text-zu-Bild-Diffusionsmodelle haben eine erstaunliche Fähigkeit zur Generierung hochwertiger Bilder gezeigt. Dennoch konzentrierten sich die Forscher hauptsächlich auf die Synthese von Bildern unter Verwendung von reinen Textanweisungen. Obwohl einige Arbeiten andere Modalitäten als Bedingungen untersucht haben, sind erhebliche Mengen an gepaarten Daten, wie z.B. Boxen-/Maske-Bild-Paaren, und lange Feinabstimmungszeiten erforderlich, um die Modelle zu trainieren. Da die Erstellung solcher gepaarter Daten zeitaufwendig und arbeitsintensiv ist und auf einen geschlossenen Datensatz beschränkt bleibt, könnte dies das Engpass für Anwendungen in einer offenen Welt werden. In diesem Artikel wird der einfachste Form von Nutzer bereitgestellten Bedingungen, wie z.B. Boxen oder Skizzen, im Fokus genommen. Um das oben beschriebene Problem zu mildern, schlagen wir eine trainingsfreie Methode vor, um Objekte und Kontexte in den synthetisierten Bildern gemäß den vorgegebenen räumlichen Bedingungen zu steuern. Insbesondere wurden drei räumliche Einschränkungen – Inner-Box (Inner-Box), Outer-Box (Outer-Box) und Ecken-Einschränkungen (Corner Constraints) – entwickelt und nahtlos in den Entrauschungsschritt der Diffusionsmodelle integriert, ohne zusätzliches Training oder große Mengen annotierter Layoutdaten zu benötigen. Ausführliche experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Einschränkungen bestimmen können, was und wo in den Bildern präsentiert wird, während sie gleichzeitig die Fähigkeit der Diffusionsmodelle beibehalten, mit hoher Treue und vielfältiger Konzeptabdeckung zu synthetisieren. Der Code ist öffentlich verfügbar unter https://github.com/showlab/BoxDiff.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BoxDiff: Text-zu-Bild-Synthese mit box-restringierter Diffusion ohne Training | Paper | HyperAI