Gear-NeRF : Rendu à vue libre et suivi par échantillonnage spatio-temporel conscient du mouvement

Les extensions des champs de radiance neuronaux (NeRF) pour modéliser des scènes dynamiques ont permis une synthèse de vue libre quasi photographique. Bien que ces méthodes aient montré un certain potentiel pour créer des expériences immersives, deux inconvénients limitent leur diffusion : (i) une réduction significative de la qualité de reconstruction lorsque le budget informatique est restreint, et (ii) un manque de compréhension sémantique des scènes sous-jacentes. Pour surmonter ces problèmes, nous proposons Gear-NeRF, qui exploite les informations sémantiques provenant de modèles puissants de segmentation d’images. Notre approche offre une méthode rigoureuse pour apprendre une représentation sémantique spatio-temporelle (4D), sur laquelle nous introduisons le concept de « pignons » (gears), permettant une modélisation stratifiée des régions dynamiques de la scène en fonction de l’étendue de leur mouvement. Cette différenciation permet d’ajuster la résolution d’échantillonnage spatio-temporelle de chaque région proportionnellement à son échelle de mouvement, aboutissant à une synthèse de nouvelles vues dynamiques plus réaliste. Par ailleurs, presque sans coût supplémentaire, notre méthode permet un suivi en vue libre d’objets d’intérêt — une fonctionnalité encore inédite dans les approches basées sur NeRF. Des études empiriques confirment l’efficacité de notre méthode, où nous atteignons des performances de rendu et de suivi de pointe sur plusieurs jeux de données exigeants.