Command Palette
Search for a command to run...
Avancement de la modélisation générative en espace pixel par pixel bout-en-bout par pré-entraînement auto-supervisé
Jiachen Lei Keli Liu Julius Berner Haiming Yu Hongkai Zheng Jiahong Wu Xiangxiang Chu

Résumé
Les modèles génératifs en espace pixel est souvent plus difficile à entraîner et présente généralement des performances inférieures par rapport à leurs homologues en espace latent, laissant subsister un écart persistant en termes de performance et d’efficacité. Dans cet article, nous proposons un nouveau cadre d’entraînement en deux étapes qui comble cet écart pour les modèles de diffusion et de cohérence en espace pixel. Dans la première étape, nous pré-entraînons des encodeurs afin de capturer des sémantiques significatives à partir d’images propres tout en les alignant sur des points situés sur la même trajectoire déterministe d’échantillonnage, qui fait évoluer les points de la distribution a priori vers la distribution des données. Dans la deuxième étape, nous intégrons l’encodeur avec un décodeur initialisé aléatoirement et ajustons l’ensemble du modèle de manière end-to-end, tant pour les modèles de diffusion que pour les modèles de cohérence. Notre cadre d’entraînement montre des performances empiriques remarquables sur le jeu de données ImageNet. Plus précisément, notre modèle de diffusion atteint un FID de 2,04 sur ImageNet-256 et de 2,35 sur ImageNet-512, avec 75 évaluations de fonction (NFE), dépassant largement les méthodes précédentes en espace pixel tant en qualité de génération qu’en efficacité, tout en rivalisant avec les meilleurs modèles basés sur les VAE à un coût d’entraînement comparable. En outre, sur ImageNet-256, notre modèle de cohérence atteint un FID impressionnant de 8,82 en une seule étape d’échantillonnage, dépassant de manière significative son homologue en espace latent. À notre connaissance, il s’agit du premier entraînement réussi d’un modèle de cohérence directement sur des images à haute résolution, sans recourir à des VAE ou modèles de diffusion pré-entraînés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.