Command Palette
Search for a command to run...
LuxDiT : Estimation d'éclairage avec un transformateur à diffusion vidéo
Ruofan Liang Kai He Zan Gojcic Igor Gilitschenski Sanja Fidler Nandita Vijaykumar Zian Wang

Résumé
L’estimation de l’éclairage d’une scène à partir d’une seule image ou d’une séquence vidéo reste un défi ancien en vision par ordinateur et en infographie. Les approches fondées sur l’apprentissage sont freinées par la rareté des cartes d’environnement HDR (haute dynamique) étalons, qui sont coûteuses à capturer et limitées en diversité. Bien que les modèles génératifs récents offrent des priori puissants pour la synthèse d’images, l’estimation de l’éclairage demeure difficile en raison de sa dépendance aux indices visuels indirects, de la nécessité d’inférer un contexte global (non local) et du besoin de reconstruire des sorties à haute dynamique. Nous proposons LuxDiT, une nouvelle approche data-driven qui ajuste finement un transformateur diffusion vidéo afin de générer des cartes d’environnement HDR conditionnellement à une entrée visuelle. Entraîné sur un grand jeu de données synthétiques couvrant une large diversité de conditions d’éclairage, notre modèle apprend à inférer l’éclairage à partir d’indices visuels indirects et se généralise efficacement à des scènes du monde réel. Pour améliorer l’alignement sémantique entre l’entrée et la carte d’environnement prédite, nous introduisons une stratégie d’ajustement fin par adaptation à faible rang, basée sur un jeu de données collecté de panoramas HDR. Notre méthode produit des prédictions d’éclairage précises, avec des détails angulaires à haute fréquence réalistes, surpassant les techniques de pointe existantes tant sur les évaluations quantitatives que qualitatives.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.