Reconstruction de l'intelligence spatiale 4D : Un état de l'art

La reconstruction de l'intelligence spatiale 4D à partir d'observations visuelles a longtemps constitué une tâche centrale mais difficile en vision par ordinateur, avec des applications à grande échelle dans le monde réel. Ces applications vont des domaines du divertissement comme le cinéma, où l'accent est souvent mis sur la reconstruction des éléments visuels fondamentaux, jusqu'aux systèmes d'intelligence artificielle incarnés (embodied AI), qui mettent l'accent sur la modélisation des interactions et la réalisme physique. Grâce aux avancées rapides dans les représentations 3D et les architectures d'apprentissage profond, le domaine a évolué rapidement, dépassant ainsi le champ d'application des revues de littérature précédentes. De plus, les revues existantes offrent rarement une analyse complète de la structure hiérarchique de la reconstruction de scènes 4D. Pour combler cet écart, nous proposons une nouvelle perspective qui classe les méthodes existantes en cinq niveaux progressifs d'intelligence spatiale 4D : (1) Niveau 1 – reconstruction des attributs 3D de bas niveau (par exemple, profondeur, pose et cartes de points) ; (2) Niveau 2 – reconstruction des composants de scènes 3D (par exemple, objets, humains, structures) ; (3) Niveau 3 – reconstruction des scènes dynamiques 4D ; (4) Niveau 4 – modélisation des interactions entre les composants de la scène ; et (5) Niveau 5 – intégration des lois physiques et des contraintes. Nous concluons cette revue en examinant les défis clés à chaque niveau et en soulignant les directions prometteuses pour progresser vers des niveaux encore plus riches d'intelligence spatiale 4D. Pour suivre les progrès en cours, nous maintenons une page de projet à jour : https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.