HyperAIHyperAI

Command Palette

Search for a command to run...

Avancement de la modélisation générative en espace pixel par pixel bout-en-bout par pré-entraînement auto-supervisé

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

Résumé

Les modèles génératifs en espace pixel est souvent plus difficile à entraîner et présente généralement des performances inférieures par rapport à leurs homologues en espace latent, laissant subsister un écart persistant en termes de performance et d’efficacité. Dans cet article, nous proposons un nouveau cadre d’entraînement en deux étapes qui comble cet écart pour les modèles de diffusion et de cohérence en espace pixel. Dans la première étape, nous pré-entraînons des encodeurs afin de capturer des sémantiques significatives à partir d’images propres tout en les alignant sur des points situés sur la même trajectoire déterministe d’échantillonnage, qui fait évoluer les points de la distribution a priori vers la distribution des données. Dans la deuxième étape, nous intégrons l’encodeur avec un décodeur initialisé aléatoirement et ajustons l’ensemble du modèle de manière end-to-end, tant pour les modèles de diffusion que pour les modèles de cohérence. Notre cadre d’entraînement montre des performances empiriques remarquables sur le jeu de données ImageNet. Plus précisément, notre modèle de diffusion atteint un FID de 2,04 sur ImageNet-256 et de 2,35 sur ImageNet-512, avec 75 évaluations de fonction (NFE), dépassant largement les méthodes précédentes en espace pixel tant en qualité de génération qu’en efficacité, tout en rivalisant avec les meilleurs modèles basés sur les VAE à un coût d’entraînement comparable. En outre, sur ImageNet-256, notre modèle de cohérence atteint un FID impressionnant de 8,82 en une seule étape d’échantillonnage, dépassant de manière significative son homologue en espace latent. À notre connaissance, il s’agit du premier entraînement réussi d’un modèle de cohérence directement sur des images à haute résolution, sans recourir à des VAE ou modèles de diffusion pré-entraînés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp