Génération 3D d'humains guidée par le texte à partir de collections 2D

La modélisation 3D humaine est largement utilisée pour des interactions engageantes dans les jeux vidéo, le cinéma et l'animation. La personnalisation de ces personnages est cruciale pour la créativité et la scalabilité, ce qui souligne l'importance de la contrôlabilité. Dans cette étude, nous présentons la Génération 3D Humaine Guidée par le Texte (\texttt{T3H}), où un modèle génère un être humain en 3D guidé par une description de mode. Nous avons deux objectifs : 1) le rendu du modèle 3D doit être précis, et 2) sa tenue doit être contrôlée par le texte fourni. Pour aborder cette tâche \texttt{T3H}, nous proposons le Modèle Compositional Cross-modal Human (CCH). Le CCH utilise l'attention intermodale pour fusionner le rendu compositionnel de l'être humain avec les sémantiques de mode extraites. Chaque partie du corps humain perçoit des instructions textuelles pertinentes comme ses motifs visuels. Nous intégrons des connaissances préalables sur l'être humain et une discrimination sémantique pour améliorer la transformation géométrique en 3D et la cohérence fine, ce qui lui permet d'apprendre à partir de collections 2D pour une efficacité maximale des données. Nous menons des évaluations sur DeepFashion et SHHQ avec divers attributs de mode couvrant la forme, le tissu et la couleur des vêtements supérieurs et inférieurs. De nombreuses expériences montrent que le CCH obtient des résultats supérieurs pour \texttt{T3H} avec une haute efficacité.