HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Avancement de la modélisation générative en espace pixel par pixel bout-en-bout par pré-entraînement auto-supervisé

Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

Avancement de la modélisation générative en espace pixel par pixel bout-en-bout par pré-entraînement auto-supervisé

Résumé

Les modèles génératifs en espace pixel est souvent plus difficile à entraîner et présente généralement des performances inférieures par rapport à leurs homologues en espace latent, laissant subsister un écart persistant en termes de performance et d’efficacité. Dans cet article, nous proposons un nouveau cadre d’entraînement en deux étapes qui comble cet écart pour les modèles de diffusion et de cohérence en espace pixel. Dans la première étape, nous pré-entraînons des encodeurs afin de capturer des sémantiques significatives à partir d’images propres tout en les alignant sur des points situés sur la même trajectoire déterministe d’échantillonnage, qui fait évoluer les points de la distribution a priori vers la distribution des données. Dans la deuxième étape, nous intégrons l’encodeur avec un décodeur initialisé aléatoirement et ajustons l’ensemble du modèle de manière end-to-end, tant pour les modèles de diffusion que pour les modèles de cohérence. Notre cadre d’entraînement montre des performances empiriques remarquables sur le jeu de données ImageNet. Plus précisément, notre modèle de diffusion atteint un FID de 2,04 sur ImageNet-256 et de 2,35 sur ImageNet-512, avec 75 évaluations de fonction (NFE), dépassant largement les méthodes précédentes en espace pixel tant en qualité de génération qu’en efficacité, tout en rivalisant avec les meilleurs modèles basés sur les VAE à un coût d’entraînement comparable. En outre, sur ImageNet-256, notre modèle de cohérence atteint un FID impressionnant de 8,82 en une seule étape d’échantillonnage, dépassant de manière significative son homologue en espace latent. À notre connaissance, il s’agit du premier entraînement réussi d’un modèle de cohérence directement sur des images à haute résolution, sans recourir à des VAE ou modèles de diffusion pré-entraînés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Avancement de la modélisation générative en espace pixel par pixel bout-en-bout par pré-entraînement auto-supervisé | Articles de recherche | HyperAI