LightGaussian : Compression 3D sans borne de Gaussiens avec une réduction de 15x et plus de 200 FPS

Les avancées récentes dans le rendu neuronal en temps réel basé sur des techniques par points ont permis une adoption plus large des représentations 3D. Toutefois, les approches fondatrices telles que le 3D Gaussian Splatting imposent un surcroît de stockage important, car les points issus de la méthode Structure-from-Motion (SfM) peuvent atteindre des millions, nécessitant souvent des espaces disque de l’ordre du gigaoctet pour une seule scène non bornée. Cette croissance pose des défis de scalabilité et nuit à l’efficacité du splatting. Pour y remédier, nous proposons LightGaussian, une méthode permettant de transformer les Gaussiennes 3D en une forme plus compacte. Inspirée par le pruning de réseaux, LightGaussian identifie les Gaussiennes ayant une contribution globalement négligeable à la reconstruction de la scène, puis applique un processus de pruning et de récupération afin de réduire la redondance tout en préservant la qualité visuelle. Une distillation de connaissances et une augmentation de vue pseudo-réelle permettent ensuite de transférer les coefficients harmoniques sphériques vers un degré inférieur, produisant ainsi des représentations compactes. La quantification vectorielle des Gaussiennes, fondée sur la signification globale de chaque Gaussienne, permet en outre de réduire la largeur de bit avec une perte d’exactitude minimale. LightGaussian atteint un taux de compression moyen de 15× tout en faisant passer les FPS de 144 à 237 dans le cadre du 3D-GS, permettant ainsi une représentation efficace de scènes complexes sur les jeux de données Mip-NeRF 360 et Tank & Temple. L’approche proposée de pruning des Gaussiennes s’avère également adaptable à d’autres représentations 3D (par exemple, Scaffold-GS), démontrant ainsi de fortes capacités de généralisation.