HyperAIHyperAI

Command Palette

Search for a command to run...

PixNerd : Diffusion des champs neuronaux de pixels

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

Résumé

Le succès actuel des transformateurs de diffusion repose fortement sur l'espace latent compressé défini par un autoencodeur variationnel (VAE) pré-entraîné. Toutefois, ce paradigme d'entraînement en deux étapes introduit inévitablement des erreurs cumulées ainsi que des artefacts de décodage. Afin de remédier à ces problèmes, certains chercheurs ont opté pour un retour à l'espace pixel, au prix de pipelines en cascade complexes et d'une augmentation de la complexité des tokens. À la différence de ces approches, nous proposons de modéliser le décodage par patch à l’aide d’un champ neuronal, offrant ainsi une solution efficace, à échelle unique, en une seule étape et entièrement end-to-end, baptisée Pixel Neural Field Diffusion (PixelNerd). Grâce à la représentation efficace par champ neuronal mise en œuvre dans PixelNerd, nous avons atteint directement un score de 2,15 FID sur ImageNet 256×256256\times256256×256 et 2,84 FID sur ImageNet 512×512512\times512512×512, sans recourir à un pipeline en cascade complexe ni à un VAE. Nous avons également étendu notre cadre PixelNerd à des applications texte-vers-image. Notre modèle PixNerd-XXL/16 a obtenu un score global compétitif de 0,73 sur le benchmark GenEval et un score global de 80,9 sur le benchmark DPG.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp