Générateurs d'images avec synthèse de pixels indépendants conditionnellement

Les réseaux générateurs d’images existants reposent fortement sur des convolutions spatiales, et éventuellement sur des blocs d’attention auto-attentionnels, afin de synthétiser progressivement les images selon une approche grossière-vers-détaillée. Dans ce travail, nous proposons une nouvelle architecture pour les générateurs d’images, dans laquelle la valeur colorimétrique de chaque pixel est calculée de manière indépendante, à partir de la valeur d’un vecteur latent aléatoire et des coordonnées de ce pixel. Aucune convolution spatiale ni opération analogue ne permettant la propagation d’informations entre pixels n’est impliquée durant la phase de synthèse. Nous analysons les capacités de modélisation de ces générateurs lorsqu’ils sont entraînés de manière adversarielle, et observons que ces nouveaux générateurs atteignent une qualité de génération comparable à celle des générateurs convolutionnels de pointe. Nous explorons également plusieurs propriétés intéressantes propres à cette nouvelle architecture.