HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

WithAnyone: Hin zu kontrollierbarer und ID-konsistenter Bildgenerierung

WithAnyone: Hin zu kontrollierbarer und ID-konsistenter Bildgenerierung

Abstract

Die identitätskonsistente Generierung ist zu einem zentralen Forschungsschwerpunkt in der Text-zu-Bild-Forschung geworden, wobei neuere Modelle beachtliche Erfolge bei der Erzeugung von Bildern erzielt haben, die einer Referenzidentität entsprechen. Dennoch zwingt die Seltenheit großskaliger, paarweise annotierter Datensätze, die mehrere Bilder derselben Person enthalten, die meisten Ansätze dazu, auf rekonstruktionsbasierte Trainingsstrategien zurückzugreifen. Diese Abhängigkeit führt häufig zu einem Fehlverhalten, das wir als „Copy-Paste“-Phänomen bezeichnen: Das Modell kopiert direkt das Referenzgesicht anstelle, die Identität unter natürlichen Variationen von Pose, Ausdruck oder Beleuchtung zu bewahren. Eine solche übermäßige Ähnlichkeit beeinträchtigt die Steuerbarkeit und begrenzt die Ausdruckskraft der Generierung. Um diese Einschränkungen zu überwinden, tragen wir folgendes bei: (1) Wir erstellen einen großskaligen, paarweise annotierten Datensatz namens MultiID-2M, der speziell für Szenarien mit mehreren Personen konzipiert ist und für jede Identität eine Vielzahl an Referenzbildern bereitstellt; (2) Wir führen eine Benchmark ein, die sowohl Copy-Paste-Artefakte als auch den Kompromiss zwischen Identitätsgetreue und Variabilität quantifiziert; und (3) Wir schlagen ein neues Trainingsparadigma vor, das eine kontrastive Identitätsverlustfunktion nutzt, um mithilfe der paarweisen Daten eine Balance zwischen Genauigkeit und Vielfalt zu erreichen. Diese Beiträge münden in WithAnyone, ein auf Diffusion basierendes Modell, das das Copy-Paste-Phänomen effektiv reduziert, gleichzeitig jedoch eine hohe Identitätsähnlichkeit bewahrt. Umfangreiche qualitative und quantitative Experimente zeigen, dass WithAnyone Copy-Paste-Artefakte signifikant verringert, die Steuerbarkeit bezüglich Pose und Ausdruck verbessert und eine hohe perceptuelle Qualität beibehält. Nutzerstudien bestätigen zudem, dass unsere Methode eine hohe Identitätsgetreue erreicht und gleichzeitig expressive, steuerbare Generierung ermöglicht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WithAnyone: Hin zu kontrollierbarer und ID-konsistenter Bildgenerierung | Forschungsarbeiten | HyperAI