Wonder3D : Transformation d'une image unique en 3D à l'aide de la diffusion inter-domaines

Dans cette étude, nous présentons Wonder3D, une nouvelle méthode permettant de générer efficacement des maillages texturés de haute fidélité à partir d'images mono-vues. Les méthodes récentes basées sur l'échantillonnage par distillation de score (SDS) ont montré leur potentiel pour récupérer la géométrie 3D à partir de modèles pré-entraînés en diffusion 2D, mais elles souffrent généralement d'une optimisation par forme très coûteuse en temps et d'une géométrie incohérente. En revanche, certaines approches produisent directement des informations 3D grâce à des inférences rapides de réseau, mais leurs résultats sont souvent de faible qualité et manquent de détails géométriques. Pour améliorer globalement la qualité, la cohérence et l'efficacité des tâches d'image à 3D, nous proposons un modèle de diffusion inter-domaine qui génère des cartes normales multi-vues et les images couleur correspondantes. Pour garantir la cohérence, nous utilisons un mécanisme d'attention inter-domaine multi-vue qui facilite l'échange d'informations entre les vues et les modalités. Enfin, nous introduisons un algorithme de fusion normale sensible à la géométrie qui extrait des surfaces de haute qualité à partir des représentations 2D multi-vues. Nos évaluations approfondies montrent que notre méthode atteint des résultats de reconstruction de haute qualité, une généralisation robuste et une efficacité raisonnablement bonne par rapport aux travaux antérieurs.