HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage des champs de flux dans l'attention pour la génération d'images de personnes contrôlable

Résumé

La génération d'images de personnes contrôlable vise à produire une image de personne en se basant sur des images de référence, permettant un contrôle précis de l'apparence ou de la posture de cette personne. Cependant, les méthodes précédentes déforment souvent les détails texturaux fins provenant de l'image de référence, malgré une qualité d'image globale élevée. Nous attribuons ces déformations à une attention insuffisante portée aux régions correspondantes dans l'image de référence. Pour remédier à cela, nous proposons donc d'apprendre des champs de flot dans l'attention (Leffa), qui guident explicitement la requête cible pour qu'elle se concentre sur la bonne clé de référence dans la couche d'attention pendant l'entraînement. Plus précisément, cela est réalisé par le biais d'une perte de régularisation appliquée au-dessus de la carte d'attention au sein d'un modèle basé sur la diffusion. Nos expériences approfondies montrent que Leffa atteint des performances de pointe en matière de contrôle de l'apparence (essayage virtuel) et de la posture (transfert de posture), réduisant considérablement les déformations des détails fins tout en maintenant une haute qualité d'image. De plus, nous montrons que notre perte est indépendante du modèle et peut être utilisée pour améliorer les performances d'autres modèles basés sur la diffusion.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp