il y a 17 jours

Apprentissage de briques LEGO empilables et sautables pour une modélisation par diffusion efficace, reconfigurable et à résolution variable

Huangjie Zheng, Zhendong Wang, Jianbo Yuan, Guanghan Ning, Pengcheng He, Quanzeng You, Hongxia Yang, Mingyuan Zhou

Résumé

Les modèles de diffusion se distinguent par leur capacité à générer des images photoréalistes, mais ils engendrent des coûts computationnels importants, tant lors de l’entraînement que lors de l’échantillonnage. Bien que diverses techniques aient été proposées pour atténuer ces contraintes computationnelles, une problématique moins explorée concerne la conception d’un squelette de réseau efficace et adaptable pour une amélioration itérative. Les architectures actuelles, telles que U-Net ou Vision Transformer, reposent souvent sur des réseaux profonds coûteux en ressources et manquent de flexibilité nécessaire pour générer des images à différentes résolutions ou avec un réseau plus léger que celui utilisé lors de l’entraînement. Cette étude présente LEGO bricks, des blocs intégrant de manière fluide l’enrichissement des caractéristiques locales et l’orchestration du contenu global. Ces briques peuvent être empilées pour former un squelette de diffusion réconfigurable en temps de test, permettant de sauter sélectivement certaines briques afin de réduire les coûts d’échantillonnage et de générer des images de résolution supérieure à celle des données d’entraînement. Les briques LEGO enrichissent les régions locales à l’aide d’un réseau de perceptron multicouche (MLP) et les transforment via un bloc Transformer, tout en maintenant une image à résolution pleine constante à travers toutes les briques. Les résultats expérimentaux démontrent que les briques LEGO améliorent l’efficacité de l’entraînement, accélèrent la convergence et permettent la génération d’images à résolution variable, tout en préservant des performances génératives fortes. En outre, LEGO réduit significativement le temps d’échantillonnage par rapport à d’autres méthodes, établissant ainsi sa valeur comme amélioration pertinente pour les modèles de diffusion. Le code source et la page du projet sont disponibles à l’adresse suivante : https://jegzheng.github.io/LEGODiffusion.