Diffuman4D : Synthèse de vues humaines 4D cohérentes à partir de vidéos à vues rares avec des modèles de diffusion spatio-temporelle

Ce document aborde le défi de la synthèse de vues à haute fidélité des humains à partir de vidéos à vues rares. Les méthodes précédentes résolvent le problème d'observations insuffisantes en utilisant des modèles de diffusion 4D pour générer des vidéos sous de nouveaux angles de vue. Cependant, les vidéos générées par ces modèles manquent souvent de cohérence spatio-temporelle, ce qui dégrade la qualité de la synthèse de vues. Dans cet article, nous proposons un nouveau processus itératif de débruitage glissant pour améliorer la cohérence spatio-temporelle du modèle de diffusion 4D. Plus précisément, nous définissons une grille latente dans laquelle chaque latent encode l'image, la position de la caméra et la posture humaine pour un angle de vue et un horodatage donnés, puis nous débruitions alternativement cette grille latente le long des dimensions spatiales et temporelles avec une fenêtre glissante, et enfin nous décodons les vidéos aux angles de vue cibles à partir des latents débruités correspondants. Grâce au débruitage itératif glissant, l'information circule suffisamment dans la grille latente, permettant au modèle de diffusion d'obtenir un grand champ récepteur et ainsi d'améliorer la cohérence 4D de la sortie tout en rendant l'utilisation mémoire GPU abordable. Les expériences menées sur les jeux de données DNA-Rendering et ActorsHQ montrent que notre méthode est capable de synthétiser des vidéos à nouvelles vues de haute qualité et cohérentes, surpassant considérablement les approches existantes. Voir notre page projet pour des démonstrations interactives et des résultats vidéo : https://diffuman4d.github.io/ .