LGM : Modèle Gaussien Multi-Vue Étendu pour la Création de Contenus 3D à Haute Résolution
LGM : Modèle Gaussien Multi-Vue Étendu pour la Création de Contenus 3D à Haute Résolution
Jiaxiang Tang Zhaoxi Chen Xiaokang Chen Tengfei Wang Gang Zeng Ziwei Liu

Résumé
La création de contenu 3D a connu des progrès significatifs en termes de qualité et de rapidité. Bien que les modèles à propagation avant actuels permettent de générer des objets 3D en quelques secondes, leur résolution reste limitée par les calculs intensifs nécessaires pendant l’entraînement. Dans cet article, nous introduisons le Large Multi-View Gaussian Model (LGM), un cadre novateur destiné à générer des modèles 3D haute résolution à partir de prompts textuels ou d’images à vue unique. Nos principales contributions reposent sur deux axes : 1) Représentation 3D : nous proposons des caractéristiques gaussiennes multi-vues comme une représentation efficace et puissante, pouvant être fusionnées pour permettre un rendu différentiable. 2) Architecture principale 3D : nous présentons une architecture U-Net asymétrique agissant comme un cœur haute performance fonctionnant sur des images multi-vues, pouvant être générées à partir de prompts textuels ou d’images à vue unique grâce à des modèles de diffusion multi-vues. Des expériences étendues démontrent la fidélité élevée et l’efficacité de notre approche. Notamment, nous parvenons à maintenir une vitesse de génération rapide, inférieure à 5 secondes pour produire un objet 3D, tout en augmentant la résolution d’entraînement jusqu’à 512, permettant ainsi une génération de contenu 3D haute résolution.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.