Command Palette
Search for a command to run...
PixNerd : Diffusion des champs neuronaux de pixels
PixNerd : Diffusion des champs neuronaux de pixels
Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang
Résumé
Le succès actuel des transformateurs de diffusion repose fortement sur l'espace latent compressé défini par un autoencodeur variationnel (VAE) pré-entraîné. Toutefois, ce paradigme d'entraînement en deux étapes introduit inévitablement des erreurs cumulées ainsi que des artefacts de décodage. Afin de remédier à ces problèmes, certains chercheurs ont opté pour un retour à l'espace pixel, au prix de pipelines en cascade complexes et d'une augmentation de la complexité des tokens. À la différence de ces approches, nous proposons de modéliser le décodage par patch à l’aide d’un champ neuronal, offrant ainsi une solution efficace, à échelle unique, en une seule étape et entièrement end-to-end, baptisée Pixel Neural Field Diffusion (PixelNerd). Grâce à la représentation efficace par champ neuronal mise en œuvre dans PixelNerd, nous avons atteint directement un score de 2,15 FID sur ImageNet 256×256 et 2,84 FID sur ImageNet 512×512, sans recourir à un pipeline en cascade complexe ni à un VAE. Nous avons également étendu notre cadre PixelNerd à des applications texte-vers-image. Notre modèle PixNerd-XXL/16 a obtenu un score global compétitif de 0,73 sur le benchmark GenEval et un score global de 80,9 sur le benchmark DPG.