HyperAIHyperAI

Command Palette

Search for a command to run...

UPGPT : Modèle de diffusion universel pour la génération, l'édition et le transfert de pose d'images de personnes

Soon Yau Cheong; Armin Mustafa; Andrew Gilbert

Résumé

Les modèles de génération d'images à partir de texte (T2I), tels que StableDiffusion, ont été utilisés pour produire des images de haute qualité représentant des personnes. Cependant, en raison du caractère aléatoire du processus de génération, l'apparence de la personne varie, par exemple en termes de posture, de visage et d'habillement, même lorsqu'on utilise le même prompt textuel. Cette incohérence dans l'apparence rend les T2I inadaptés pour le transfert de posture. Nous remédions à cette situation en proposant un modèle de diffusion multimodal qui accepte des prompts textuels, posturaux et visuels. Notre modèle constitue la première méthode unifiée capable d'effectuer toutes les tâches liées aux images de personnes : génération, transfert de posture et édition sans masque. Nous introduisons également l'utilisation directe de paramètres d'un modèle corporel 3D à faible dimension pour démontrer une nouvelle capacité : l'interpolation simultanée de la posture et de la vue caméra tout en maintenant l'apparence de la personne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp