InstantID : Génération préservant l'identité en zéro coup d'œil et en quelques secondes

Des progrès significatifs ont été réalisés dans la synthèse d'images personnalisées grâce à des méthodes telles que l'inversion textuelle (Textual Inversion), DreamBooth et LoRA. Cependant, leur applicabilité dans le monde réel est entravée par des exigences de stockage élevées, des processus de réglage fin longs et la nécessité d'avoir plusieurs images de référence. Par contre, les méthodes existantes basées sur l'embedding d'identité, bien qu'elles n'exigent qu'une seule inférence en avant, rencontrent également des défis : elles nécessitent soit un réglage fin approfondi sur de nombreux paramètres du modèle, soit manquent de compatibilité avec les modèles pré-entraînés communautaires, ou ne parviennent pas à maintenir une haute fidélité faciale. Pour répondre à ces limitations, nous présentons InstantID, une solution puissante basée sur un modèle de diffusion. Notre module plug-and-play gère habilement la personnalisation d'images dans divers styles en utilisant simplement une seule image faciale tout en assurant une haute fidélité. Pour y parvenir, nous avons conçu un nouveau IdentityNet (IdentityNet) en imposant des conditions sémantiques fortes et spatiales faibles, intégrant des images faciales et des images de repères avec des invites textuelles pour diriger la génération d'images. InstantID démontre des performances et une efficacité exceptionnelles, se révélant très bénéfique dans les applications réelles où la préservation de l'identité est primordiale. De plus, notre travail s'intègre parfaitement avec des modèles de diffusion pré-entraînés populaires comme SD1.5 et SDXL, agissant comme un plugin adaptable. Nos codes et points de contrôle pré-entraînés seront disponibles sur https://github.com/InstantID/InstantID.