FastComposer: Tuning-freie Mehrsubjekt-Bildgenerierung mit lokalisierten Aufmerksamkeitsmechanismen

Diffusionsmodelle zeichnen sich durch eine herausragende Leistung bei der Text-zu-Bild-Generierung aus, insbesondere bei der personalisierten Generierung von Bildern auf der Grundlage von Themen. Bestehende Methoden sind jedoch ineffizient, da sie an themen-spezifische Feinabstimmung gebunden sind, die rechenaufwendig ist und eine effiziente Implementierung erschwert. Darüber hinaus haben bestehende Methoden Schwierigkeiten mit der Generierung von Mehrfach-Themen, da sie oft Merkmale zwischen den Themen vermischen. Wir stellen FastComposer vor, ein Verfahren, das effiziente, personalisierte und mehrfach-thematische Text-zu-Bild-Generierung ohne Feinabstimmung ermöglicht. FastComposer verwendet themenspezifische Einbettungen (embeddings), die durch einen Bildencoder extrahiert werden, um die generische Textbedingung in Diffusionsmodellen zu erweitern. Dies ermöglicht es, personalisierte Bildgenerierung basierend auf Themenbildern und textuellen Anweisungen nur durch Vorwärtsdurchläufe (forward passes) zu erreichen. Um das Problem der Identitätsvermischung bei der Mehrfach-Themengenerierung anzugehen, schlägt FastComposer während des Trainings eine Supervision durch Cross-Attention-Lokalisierung vor. Diese setzt sicher, dass die Aufmerksamkeit auf Referenzthemen in den richtigen Bereichen der Zielbilder lokalisiert wird. Eine naive Bedingung anhand von Themen-Einbettungen führt zu einem Überfitting auf das Thema. FastComposer schlägt daher eine verzögerte Themenbedingung im Denoising-Schritt vor, um sowohl Identität als auch Bearbeitbarkeit in themengeführten Bildgenerierungen zu gewährleisten. FastComposer erstellt Bilder von mehreren unbekannten Individuen mit verschiedenen Stilen, Aktionen und Kontexten. Es erreicht eine Beschleunigung von 300- bis 2500-fach im Vergleich zu feinabgestimmten Methoden und benötigt keinen zusätzlichen Speicherplatz für neue Themen. FastComposer bahnt den Weg für effiziente, personalisierte und hochwertige Mehrfach-Themenerstellung in Bildern. Der Code, das Modell und der Datensatz sind unter https://github.com/mit-han-lab/fastcomposer verfügbar.