T-LoRA : Personnalisation d'un modèle de diffusion à partir d'une seule image sans surapprentissage

Bien que l'ajustement fin des modèles de diffusion offre une approche puissante pour personnaliser les modèles pré-entraînés afin de générer des objets spécifiques, il souffre fréquemment de surapprentissage lorsque les échantillons d'entraînement sont limités, compromettant ainsi à la fois la capacité de généralisation et la diversité des sorties. Cet article aborde la tâche ardue mais d'un impact majeur consistant à adapter un modèle de diffusion en utilisant simplement une image conceptuelle unique, car la personnalisation par une seule image présente le plus grand potentiel pratique. Nous présentons T-LoRA, un cadre d'adaptation de faible rang dépendant du temps d'étape (Timestep-Dependent Low-Rank Adaptation) spécifiquement conçu pour la personnalisation des modèles de diffusion. Dans notre travail, nous montrons que les étapes de diffusion élevées sont plus sujettes au surapprentissage que les étapes basses, ce qui nécessite une stratégie d'ajustement fin sensible au temps d'étape. T-LoRA intègre deux innovations clés : (1) une stratégie d'ajustement fin dynamique qui ajuste les mises à jour sous contrainte de rang en fonction des étapes de diffusion, et (2) une technique de paramétrisation des poids qui garantit l'indépendance entre les composants adaptateurs grâce à une initialisation orthogonale. De nombreuses expériences montrent que T-LoRA et ses composants individuels surpassent le LoRA standard et d'autres techniques de personnalisation des modèles de diffusion. Ils atteignent un équilibre supérieur entre fidélité conceptuelle et alignement textuel, soulignant le potentiel de T-LoRA dans des scénarios où les données sont limitées et les ressources contraintes. Le code est disponible à l'adresse suivante : https://github.com/ControlGenAI/T-LoRA.