PixNerd : Diffusion des champs neuronaux de pixels

Le succès actuel des transformateurs de diffusion repose fortement sur l'espace latent compressé défini par un autoencodeur variationnel (VAE) pré-entraîné. Toutefois, ce paradigme d'entraînement en deux étapes introduit inévitablement des erreurs cumulées ainsi que des artefacts de décodage. Afin de remédier à ces problèmes, certains chercheurs ont opté pour un retour à l'espace pixel, au prix de pipelines en cascade complexes et d'une augmentation de la complexité des tokens. À la différence de ces approches, nous proposons de modéliser le décodage par patch à l’aide d’un champ neuronal, offrant ainsi une solution efficace, à échelle unique, en une seule étape et entièrement end-to-end, baptisée Pixel Neural Field Diffusion (PixelNerd). Grâce à la représentation efficace par champ neuronal mise en œuvre dans PixelNerd, nous avons atteint directement un score de 2,15 FID sur ImageNet $256\times256$ et 2,84 FID sur ImageNet $512\times512$, sans recourir à un pipeline en cascade complexe ni à un VAE. Nous avons également étendu notre cadre PixelNerd à des applications texte-vers-image. Notre modèle PixNerd-XXL/16 a obtenu un score global compétitif de 0,73 sur le benchmark GenEval et un score global de 80,9 sur le benchmark DPG.