RTMV : Un jeu de données synthétique à vue multiple par traçage de rayons pour la synthèse de nouvelles vues

Nous présentons un ensemble de données synthétiques à grande échelle pour la synthèse de vues nouvelles, composé d’environ 300 000 images rendues à partir de près de 2 000 scènes complexes à l’aide d’un traçage de rayons de haute qualité à une résolution élevée (1600 × 1600 pixels). Cet ensemble de données est d’un ordre de grandeur supérieur à ceux existants pour la synthèse de vues nouvelles, offrant ainsi une référence unifiée de grande ampleur pour l’entraînement et l’évaluation. Grâce à quatre sources distinctes de maillages 3D de haute qualité, les scènes de notre ensemble présentent des variations exigeantes en termes de points de vue caméra, d’éclairage, de forme, de matériaux et de textures. Étant donné que notre ensemble de données est trop volumineux pour être traité par les méthodes existantes, nous proposons Sparse Voxel Light Field (SVLF), une approche efficace basée sur les voxels pour la synthèse de vues nouvelles, qui atteint des performances comparables à celles de NeRF sur des données synthétiques, tout en étant d’un ordre de grandeur plus rapide à entraîner et de deux ordres de grandeur plus rapide à rendre. Cette accélération est obtenue grâce à l’utilisation d’un octree de voxels creux, à un échantillonnage soigneux des voxels (nécessitant seulement quelques requêtes par rayon) ainsi qu’à une architecture de réseau réduite, combinée à l’utilisation de cartes de profondeur vraies à l’entraînement. Notre ensemble de données a été généré par NViSII, un moteur de rendu par traçage de rayons basé sur Python, conçu pour être simple à utiliser et à partager, tout en offrant une grande flexibilité et puissance grâce à son intégration du scriptage, et capable de produire des images de haute qualité fondées sur des principes physiques. Des expériences menées sur un sous-ensemble de notre ensemble de données permettent de comparer des méthodes standards telles que NeRF et mip-NeRF pour la modélisation d’une seule scène, ainsi que pixelNeRF pour la modélisation au niveau de catégorie, soulignant ainsi la nécessité d’améliorations futures dans ce domaine.