Lernen von Flussfeldern in der Aufmerksamkeit für steuerbare Personenbildgenerierung

Die kontrollierte Generierung von Personenbildern zielt darauf ab, ein Personenbild unter Berücksichtigung von Referenzbildern zu erzeugen, wodurch eine präzise Kontrolle über das Erscheinungsbild oder die Haltung der Person ermöglicht wird. Allerdings verzerren bisherige Methoden oft feingranulare texturale Details aus dem Referenzbild, obwohl sie insgesamt eine hohe Bildqualität erreichen. Wir führen diese Verzerrungen auf unzureichende Aufmerksamkeit für entsprechende Bereiche im Referenzbild zurück. Um dies zu beheben, schlagen wir das Lernen von Flussfeldern in der Aufmerksamkeit (LeFFA) vor, was während des Trainings explizit die Zielabfrage anleitet, sich dem korrekten Referenzschlüssel in der Aufmerksamkeitsschicht zu orientieren. Insbesondere wird dies durch einen Regularisierungsverlust auf der Aufmerksamkeitskarte innerhalb eines diffusionsbasierten Baselines realisiert. Unsere umfangreichen Experimente zeigen, dass LeFFA den Stand der Technik in der Kontrolle des Erscheinungsbildes (virtuelles Anprobieren) und der Haltung (Haltungsübertragung) erreicht, dabei feingranulare Detailverzerrungen erheblich reduziert und gleichzeitig eine hohe Bildqualität aufrechterhält. Darüber hinaus demonstrieren wir, dass unser Verlustmodell agnostisch ist und zur Verbesserung der Leistungsfähigkeit anderer Diffusionsmodelle eingesetzt werden kann.