Génération adversaire d'images continues

Dans la plupart des systèmes d’apprentissage existants, les images sont généralement traitées comme des tableaux 2D de pixels. Toutefois, dans une autre approche qui gagne en popularité, une image 2D est représentée sous la forme d’une représentation neuronale implicite (INR) – un réseau de perceptrons multicouches (MLP) qui prédit la valeur RGB d’un pixel à partir de ses coordonnées (x,y). Dans cet article, nous proposons deux nouvelles techniques architecturales pour concevoir des décodeurs d’images basés sur les INR : la modulation multiplicative factorisée et les INR à plusieurs échelles. Ces méthodes sont utilisées pour construire un GAN d’images continues de pointe. Les tentatives antérieures d’adapter les INR à la génération d’images se sont limitées à des jeux de données du type MNIST et ne s’étendent pas à des données réelles complexes. L’architecture INR-GAN proposée améliore significativement les performances des générateurs d’images continues, réduisant de manière notable l’écart entre les GAN d’images continues et ceux basés sur les pixels. En outre, nous explorons plusieurs propriétés remarquables des décodeurs basés sur les INR, telles que la super-résolution immédiate, une interpolation significative dans l’espace des images, une accélération du calcul des images à faible résolution, la capacité à extrapoler au-delà des frontières de l’image, ainsi qu’un fort préjugé géométrique. La page du projet est disponible à l’adresse suivante : https://universome.github.io/inr-gan.