HyperAIHyperAI
il y a 2 mois

SyncDreamer : Génération d'images multivues cohérentes à partir d'une image univue

Yuan Liu; Cheng Lin; Zijiao Zeng; Xiaoxiao Long; Lingjie Liu; Taku Komura; Wenping Wang
SyncDreamer : Génération d'images multivues cohérentes à partir d'une image univue
Résumé

Dans cet article, nous présentons un nouveau modèle de diffusion appelé SyncDreamer qui génère des images multivues cohérentes à partir d'une image monovue. En utilisant des modèles de diffusion 2D préentraînés à grande échelle, les travaux récents comme Zero123 ont démontré la capacité de générer des vues nouvelles et plausibles à partir d'une image monovue d'un objet. Cependant, maintenir la cohérence en géométrie et en couleurs pour les images générées reste un défi. Pour résoudre ce problème, nous proposons un modèle de diffusion multivues synchronisé qui modélise la distribution de probabilité conjointe des images multivues, permettant ainsi la génération d'images multivues cohérentes au cours d'un seul processus inverse. SyncDreamer synchronise les états intermédiaires de toutes les images générées à chaque étape du processus inverse grâce à un mécanisme d'attention aux caractéristiques 3D conscient (3D-aware feature attention mechanism) qui corrèle les caractéristiques correspondantes entre différentes vues. Les expériences montrent que SyncDreamer génère des images avec une haute cohérence entre différentes vues, ce qui le rend particulièrement adapté à diverses tâches de génération 3D telles que la synthèse de nouvelles vues, la conversion texte-3D et l'image-3D.