CLiFT : Tokens de Champ Lumineux Compressés pour un Rendu Neuronal Économique en Calcul et Adaptatif

Ce papier propose une approche de rendu neuronal qui représente une scène sous forme de "tokens de champ lumineux compressé (CLiFTs)", conservant ainsi des informations d'apparence et de géométrie riches. Les CLiFTs permettent un rendu efficace en termes de calcul grâce à des tokens compressés, tout en étant capables de modifier le nombre de tokens pour représenter une scène ou rendre une vue inédite avec un seul réseau entraîné. Plus précisément, étant donné un ensemble d'images, l'encodeur multi-vues tokenise les images avec les poses des caméras. L'algorithme K-means dans l'espace latent sélectionne un ensemble réduit de rayons comme centres de clusters en utilisant les tokens. Le condenseur multi-vues compresse les informations de tous les tokens dans les tokens centroïdes pour construire les CLiFTs. Au moment du test, étant donné une vue cible et un budget de calcul (c'est-à-dire le nombre de CLiFTs), le système collecte le nombre spécifié de tokens voisins et synthétise une vue inédite à l'aide d'un rendu adaptatif au calcul. Des expériences étendues sur les jeux de données RealEstate10K et DL3DV valident quantitativement et qualitativement notre approche, atteignant une réduction significative des données avec une qualité de rendu comparable et la meilleure note globale de rendu, tout en offrant des compromis entre la taille des données, la qualité du rendu et la vitesse du rendu.