DreamBooth : Ajustement fin des modèles de diffusion d'images à partir du texte pour la génération dirigée par le sujet

Les grands modèles de génération d'images à partir du texte ont réalisé une avancée remarquable dans l'évolution de l'IA, permettant la synthèse de haute qualité et diversifiée d'images à partir d'une entrée textuelle. Cependant, ces modèles manquent de la capacité à imiter l'apparence des sujets dans un ensemble de référence donné et à synthétiser de nouvelles représentations de ceux-ci dans différents contextes. Dans ce travail, nous présentons une nouvelle approche pour la « personnalisation » des modèles de diffusion d'images à partir du texte. En utilisant comme entrée seulement quelques images d'un sujet, nous affinons un modèle pré-entraîné afin qu'il apprenne à associer un identifiant unique à ce sujet spécifique. Une fois que le sujet est intégré au domaine de sortie du modèle, l'identifiant unique peut être utilisé pour générer de nouvelles images photoréalistes du sujet contextualisé dans différentes scènes. En exploitant le priori sémantique intégré au modèle avec une nouvelle perte de préservation priori spécifique aux classes autogène (autogenous class-specific prior preservation loss), notre technique permet la synthèse du sujet dans des scènes, poses, vues et conditions d'éclairage variées qui ne figurent pas dans les images de référence. Nous appliquons notre technique à plusieurs tâches jusqu'alors inaccessibles, telles que la récontextualisation des sujets, la synthèse guidée par le texte des vues et le rendu artistique, tout en préservant les caractéristiques clés du sujet. Nous fournissons également un nouveau jeu de données et un protocole d'évaluation pour cette nouvelle tâche de génération dirigée par le sujet. Page du projet : https://dreambooth.github.io/