Command Palette
Search for a command to run...
WithAnyone: Hin zu kontrollierbarer und ID-konsistenter Bildgenerierung

Abstract
Die identitätskonsistente Generierung ist zu einem zentralen Forschungsschwerpunkt in der Text-zu-Bild-Forschung geworden, wobei neuere Modelle beachtliche Erfolge bei der Erzeugung von Bildern erzielt haben, die einer Referenzidentität entsprechen. Dennoch zwingt die Seltenheit großskaliger, paarweise annotierter Datensätze, die mehrere Bilder derselben Person enthalten, die meisten Ansätze dazu, auf rekonstruktionsbasierte Trainingsstrategien zurückzugreifen. Diese Abhängigkeit führt häufig zu einem Fehlverhalten, das wir als „Copy-Paste“-Phänomen bezeichnen: Das Modell kopiert direkt das Referenzgesicht anstelle, die Identität unter natürlichen Variationen von Pose, Ausdruck oder Beleuchtung zu bewahren. Eine solche übermäßige Ähnlichkeit beeinträchtigt die Steuerbarkeit und begrenzt die Ausdruckskraft der Generierung. Um diese Einschränkungen zu überwinden, tragen wir folgendes bei: (1) Wir erstellen einen großskaligen, paarweise annotierten Datensatz namens MultiID-2M, der speziell für Szenarien mit mehreren Personen konzipiert ist und für jede Identität eine Vielzahl an Referenzbildern bereitstellt; (2) Wir führen eine Benchmark ein, die sowohl Copy-Paste-Artefakte als auch den Kompromiss zwischen Identitätsgetreue und Variabilität quantifiziert; und (3) Wir schlagen ein neues Trainingsparadigma vor, das eine kontrastive Identitätsverlustfunktion nutzt, um mithilfe der paarweisen Daten eine Balance zwischen Genauigkeit und Vielfalt zu erreichen. Diese Beiträge münden in WithAnyone, ein auf Diffusion basierendes Modell, das das Copy-Paste-Phänomen effektiv reduziert, gleichzeitig jedoch eine hohe Identitätsähnlichkeit bewahrt. Umfangreiche qualitative und quantitative Experimente zeigen, dass WithAnyone Copy-Paste-Artefakte signifikant verringert, die Steuerbarkeit bezüglich Pose und Ausdruck verbessert und eine hohe perceptuelle Qualität beibehält. Nutzerstudien bestätigen zudem, dass unsere Methode eine hohe Identitätsgetreue erreicht und gleichzeitig expressive, steuerbare Generierung ermöglicht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.