HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Flussfeldern in der Aufmerksamkeit für steuerbare Personenbildgenerierung

Zusammenfassung

Die kontrollierte Generierung von Personenbildern zielt darauf ab, ein Personenbild unter Berücksichtigung von Referenzbildern zu erzeugen, wodurch eine präzise Kontrolle über das Erscheinungsbild oder die Haltung der Person ermöglicht wird. Allerdings verzerren bisherige Methoden oft feingranulare texturale Details aus dem Referenzbild, obwohl sie insgesamt eine hohe Bildqualität erreichen. Wir führen diese Verzerrungen auf unzureichende Aufmerksamkeit für entsprechende Bereiche im Referenzbild zurück. Um dies zu beheben, schlagen wir das Lernen von Flussfeldern in der Aufmerksamkeit (LeFFA) vor, was während des Trainings explizit die Zielabfrage anleitet, sich dem korrekten Referenzschlüssel in der Aufmerksamkeitsschicht zu orientieren. Insbesondere wird dies durch einen Regularisierungsverlust auf der Aufmerksamkeitskarte innerhalb eines diffusionsbasierten Baselines realisiert. Unsere umfangreichen Experimente zeigen, dass LeFFA den Stand der Technik in der Kontrolle des Erscheinungsbildes (virtuelles Anprobieren) und der Haltung (Haltungsübertragung) erreicht, dabei feingranulare Detailverzerrungen erheblich reduziert und gleichzeitig eine hohe Bildqualität aufrechterhält. Darüber hinaus demonstrieren wir, dass unser Verlustmodell agnostisch ist und zur Verbesserung der Leistungsfähigkeit anderer Diffusionsmodelle eingesetzt werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp