Apprentissage de la prédiction d'objets 3D avec un rendu différentiel basé sur l'interpolation

De nombreux modèles d'apprentissage automatique fonctionnent sur des images, mais négligent le fait que celles-ci sont des projections bidimensionnelles formées par l'interaction de la géométrie tridimensionnelle avec la lumière, un processus appelé rendu (rendering). Permettre aux modèles d'apprentissage automatique de comprendre la formation des images pourrait être crucial pour leur généralisation. Cependant, en raison d'une étape essentielle de rasterisation impliquant des opérations d'affectation discrète, les pipelines de rendu sont non différentiables et donc largement inaccessibles aux techniques d'apprentissage automatique basées sur les gradients.Dans cet article, nous présentons {\emph DIB-R}, un cadre de rendu différentiable qui permet le calcul analytique des gradients pour tous les pixels d'une image. L'élément clé de notre approche est de considérer la rasterisation du premier plan comme une interpolation pondérée des propriétés locales et celle du fond comme une agrégation basée sur la distance de la géométrie globale. Notre méthode permet une optimisation précise des positions des sommets, des couleurs, des normales, des directions lumineuses et des coordonnées texturées à travers divers modèles d'éclairage.Nous illustrons notre approche dans deux applications d'apprentissage automatique : la prédiction d'objets 3D à partir d'une seule image et la génération d'objets 3D texturés, toutes deux formées exclusivement à l'aide d'une supervision bidimensionnelle. Le site web de notre projet est : https://nv-tlabs.github.io/DIB-R/