4DNeX : Modélisation générative 4D en boucle avant simplifiée

Nous présentons 4DNeX, le premier cadre à propagation directe (feed-forward) permettant de générer des représentations scéniques 4D (c’est-à-dire dynamiques en 3D) à partir d’une seule image. Contrairement aux méthodes existantes qui reposent sur une optimisation coûteuse en ressources ou nécessitent des entrées vidéo à plusieurs trames, 4DNeX permet une génération efficace et end-to-end d’images vers des scènes 4D grâce au fine-tuning d’un modèle préentraîné de diffusion vidéo. Plus précisément : 1) afin de pallier le manque de données 4D, nous construisons 4DNeX-10M, un grand jeu de données annoté 4D de haute qualité, généré à l’aide de méthodes avancées de reconstruction ; 2) nous introduisons une représentation vidéo unifiée en 6D qui modélise simultanément les séquences RGB et XYZ, facilitant un apprentissage structuré à la fois de l’apparence et de la géométrie ; 3) nous proposons un ensemble de stratégies d’adaptation simples mais efficaces pour réaffecter des modèles de diffusion vidéo préentraînés à la modélisation 4D. 4DNeX produit des nuages de points dynamiques de haute qualité, permettant la synthèse de vidéos à nouveaux points de vue. Des expériences étendues démontrent que 4DNeX surpasser les méthodes existantes de génération 4D en efficacité et en généralisation, offrant ainsi une solution évolutrice pour la modélisation image-to-4D et posant les bases de modèles mondiaux génératifs 4D capables de simuler l’évolution dynamique des scènes.