HyperAIHyperAI

Command Palette

Search for a command to run...

FastComposer: Tuning-freie Mehrsubjekt-Bildgenerierung mit lokalisierten Aufmerksamkeitsmechanismen

Xiao Guangxuan ; Yin Tianwei ; Freeman William T. ; Durand Frédo ; Han Song

Zusammenfassung

Diffusionsmodelle zeichnen sich durch eine herausragende Leistung bei der Text-zu-Bild-Generierung aus, insbesondere bei der personalisierten Generierung von Bildern auf der Grundlage von Themen. Bestehende Methoden sind jedoch ineffizient, da sie an themen-spezifische Feinabstimmung gebunden sind, die rechenaufwendig ist und eine effiziente Implementierung erschwert. Darüber hinaus haben bestehende Methoden Schwierigkeiten mit der Generierung von Mehrfach-Themen, da sie oft Merkmale zwischen den Themen vermischen. Wir stellen FastComposer vor, ein Verfahren, das effiziente, personalisierte und mehrfach-thematische Text-zu-Bild-Generierung ohne Feinabstimmung ermöglicht. FastComposer verwendet themenspezifische Einbettungen (embeddings), die durch einen Bildencoder extrahiert werden, um die generische Textbedingung in Diffusionsmodellen zu erweitern. Dies ermöglicht es, personalisierte Bildgenerierung basierend auf Themenbildern und textuellen Anweisungen nur durch Vorwärtsdurchläufe (forward passes) zu erreichen. Um das Problem der Identitätsvermischung bei der Mehrfach-Themengenerierung anzugehen, schlägt FastComposer während des Trainings eine Supervision durch Cross-Attention-Lokalisierung vor. Diese setzt sicher, dass die Aufmerksamkeit auf Referenzthemen in den richtigen Bereichen der Zielbilder lokalisiert wird. Eine naive Bedingung anhand von Themen-Einbettungen führt zu einem Überfitting auf das Thema. FastComposer schlägt daher eine verzögerte Themenbedingung im Denoising-Schritt vor, um sowohl Identität als auch Bearbeitbarkeit in themengeführten Bildgenerierungen zu gewährleisten. FastComposer erstellt Bilder von mehreren unbekannten Individuen mit verschiedenen Stilen, Aktionen und Kontexten. Es erreicht eine Beschleunigung von 300- bis 2500-fach im Vergleich zu feinabgestimmten Methoden und benötigt keinen zusätzlichen Speicherplatz für neue Themen. FastComposer bahnt den Weg für effiziente, personalisierte und hochwertige Mehrfach-Themenerstellung in Bildern. Der Code, das Modell und der Datensatz sind unter https://github.com/mit-han-lab/fastcomposer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp