FOF : Apprentissage d'un champ d'occupation de Fourier pour la reconstruction en temps réel de l'humain à partir d'une caméra monoculaire

L'arrivée de l'apprentissage profond a permis des progrès significatifs dans la reconstruction monulaire de l'être humain. Cependant, les représentations existantes, telles que les modèles paramétriques, les grilles de voxels, les maillages et les représentations neuronales implicites, éprouvent des difficultés à atteindre simultanément des résultats de haute qualité et une vitesse en temps réel. Dans cet article, nous proposons le champ d'occupation de Fourier (FOF), une nouvelle représentation 3D puissante, efficace et flexible, pour la reconstruction monulaire en temps réel et précise de l'être humain. Le FOF représente un objet 3D par un champ 2D orthogonal à la direction de vue, où chaque position 2D contient une représentation compacte du champ d'occupation de l'objet le long de la direction de vue à l'aide des premiers termes d'une série de Fourier, ce qui préserve la topologie et les relations de voisinage dans le domaine 2D. Un FOF peut être stocké sous forme d'image multicanaux, compatible avec les réseaux neuronaux convolutifs 2D et capable de combler le fossé entre les géométries 3D et les images 2D. Le FOF est très flexible et extensible ; par exemple, les modèles paramétriques peuvent être facilement intégrés au FOF comme a priori pour générer des résultats plus robustes. Sur la base du FOF, nous avons conçu le premier cadre de reconstruction monulaire en temps réel d'un être humain avec une fidélité supérieure à 30 FPS. Nous démontrons le potentiel du FOF sur des jeux de données publics ainsi que sur des données capturées en conditions réelles. Le code sera rendu disponible aux fins de recherche.