InstantID: Nullschuss-Identitätsbewahrung in Sekunden

Es wurde erheblicher Fortschritt bei der personalisierten Bildsynthese mit Methoden wie Textual Inversion, DreamBooth und LoRA erzielt. Dennoch wird ihre praktische Anwendbarkeit durch hohe Speicheranforderungen, lange Feinabstimmungsprozesse und die Notwendigkeit mehrerer Referenzbilder eingeschränkt. Im Gegensatz dazu stellen bestehende ID-Embedding-basierte Methoden, obwohl sie nur eine einzelne Vorwärtsinferenz erfordern, Herausforderungen dar: Sie benötigen entweder umfangreiche Feinabstimmung über zahlreiche Modellparameter, sind nicht kompatibel mit von der Gemeinschaft vorab trainierten Modellen oder können eine hohe Gesichtstreue nicht aufrechterhalten. Um diese Einschränkungen zu überwinden, präsentieren wir InstantID, eine leistungsstarke Lösung auf Basis eines Diffusionsmodells. Unser einsteckbares Modul beherrscht die Bildpersonalisierung in verschiedenen Stilen unter Verwendung nur eines einzigen Gesichtsbildes und gewährleistet dabei eine hohe Treue. Dazu entwickeln wir ein neues IdentityNet, indem wir starke semantische und schwache räumliche Bedingungen auferlegen und Gesichts- und Landmarkenbilder mit textuellen Anweisungen kombinieren, um die Bildgenerierung zu steuern. InstantID zeigt außergewöhnliche Leistungsfähigkeit und Effizienz und ist für Anwendungen in der Praxis von großer Vorteil, wo die Identitätserhaltung von entscheidender Bedeutung ist. Darüber hinaus integriert sich unsere Arbeit nahtlos in beliebte vorab trainierte Text-zu-Bild-Diffusionsmodelle wie SD1.5 und SDXL und dient als flexibles Plugin. Unsere Codes und vorab trainierten Checkpoints werden unter https://github.com/InstantID/InstantID zur Verfügung gestellt.