La 3D volumétrique prêt à être diffusée
Des informaticiens de l'Université de Brown ont développé une avancée majeure pour rendre la vidéo volumétrique accessible sur les ordinateurs et les téléviseurs intelligents. Cette technologie permet de visualiser une scène en 3D sous n'importe quel angle. L'équipe, dirigée par le doctorant Aashish Rai et l'assistant professeur Srinath Sridhar, a présenté son travail, baptisé PackUV, en juin lors de la conférence IEEE/CVF sur la vision par ordinateur et les modèles de reconnaissance de motifs. La vidéo volumétrique est capturée à l'aide de multiples caméras synchronisées entourant une scène. Les algorithmes reconstituent alors l'espace physique en trois dimensions, créant une reproduction qui intègre la quatrième dimension, celle du temps. Bien que prometteuse pour l'immersion, cette technologie souffrait auparavant de deux obstacles majeurs : la taille des fichiers et l'incompatibilité avec les infrastructures existantes. Un enregistrement de trente minutes pouvait atteindre plusieurs téraoctets et utiliser des formats de données incompatibles avec les codecs vidéo standards utilisés par les plateformes comme Netflix ou YouTube. Pour résoudre ce problème, l'équipe de Brown a adapté une méthode d'inférence avancée appelée « éclaboussures gaussiennes 3D » (3D Gaussian splatting). Cette technique utilise des formes floues pour encoder la couleur, l'opacité et la forme des points dans l'espace, offrant une qualité d'image exceptionnelle mais des fichiers très lourds. L'innovation de PackUV consiste à mapper ces millions de gaussiennes en une image 2D structurée et multi-échelle, similaire à la projection d'une carte du monde sur un plan plat. En empilant ces images, le système génère une vidéo de taille raisonnable, totalement compatible avec les codecs vidéo traditionnels, facilitant ainsi le stockage et le streaming. Une autre difficulté technique concernait la trajectoire des objets sur des séquences longues. Les méthodes précédentes perdaient souvent la trace d'objets temporairement masqués ou ne parvenaient pas à gérer l'entrée de nouveaux éléments dans la scène, ce qui limitait l'utilisation à de courtes durées. La nouvelle approche surmonte cette limite en découpant la vidéo en petits segments. À chaque début de segment, le système réinitialise le processus de suivi, vérifiant les mouvements, les entrées et les sorties d'objets. Cela permet de reconquérir les objets masqués et d'ajuster la modélisation, rendant possible le rendu de scènes complexes jusqu'à trente minutes de durée sans défaillance. Pour valider et tester leur technique, les chercheurs ont constitué le plus grand ensemble de données vidéo à points de vue multiples jamais assemblé à ce jour. Capture par un réseau de 50 à 90 caméras synchronisées, cet ensemble inclut des personnes effectuant diverses actions telles que le basketball, le pickleball, la cuisine ou le travail du bois, tant en laboratoire que dans des environnements réels grâce à une caméra mobile. L'ensemble de ces données a été mis à disposition de la communauté scientifique. Selon Srinath Sridhar, ce travail jette les bases de la création de « doubles numériques » du monde réel. Les applications potentielles sont vastes, allant du divertissement et du sport à l'industrie manufacturière, où la capacité à recréer fidèlement l'environnement physique à partir de données vidéo ouvre de nouvelles perspectives d'analyse et d'interaction.
