HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de briques LEGO empilables et sautables pour une modélisation par diffusion efficace, reconfigurable et à résolution variable

Huangjie Zheng Zhendong Wang Jianbo Yuan Guanghan Ning Pengcheng He Quanzeng You Hongxia Yang Mingyuan Zhou

Résumé

Les modèles de diffusion se distinguent par leur capacité à générer des images photoréalistes, mais ils engendrent des coûts computationnels importants, tant lors de l’entraînement que lors de l’échantillonnage. Bien que diverses techniques aient été proposées pour atténuer ces contraintes computationnelles, une problématique moins explorée concerne la conception d’un squelette de réseau efficace et adaptable pour une amélioration itérative. Les architectures actuelles, telles que U-Net ou Vision Transformer, reposent souvent sur des réseaux profonds coûteux en ressources et manquent de flexibilité nécessaire pour générer des images à différentes résolutions ou avec un réseau plus léger que celui utilisé lors de l’entraînement. Cette étude présente LEGO bricks, des blocs intégrant de manière fluide l’enrichissement des caractéristiques locales et l’orchestration du contenu global. Ces briques peuvent être empilées pour former un squelette de diffusion réconfigurable en temps de test, permettant de sauter sélectivement certaines briques afin de réduire les coûts d’échantillonnage et de générer des images de résolution supérieure à celle des données d’entraînement. Les briques LEGO enrichissent les régions locales à l’aide d’un réseau de perceptron multicouche (MLP) et les transforment via un bloc Transformer, tout en maintenant une image à résolution pleine constante à travers toutes les briques. Les résultats expérimentaux démontrent que les briques LEGO améliorent l’efficacité de l’entraînement, accélèrent la convergence et permettent la génération d’images à résolution variable, tout en préservant des performances génératives fortes. En outre, LEGO réduit significativement le temps d’échantillonnage par rapport à d’autres méthodes, établissant ainsi sa valeur comme amélioration pertinente pour les modèles de diffusion. Le code source et la page du projet sont disponibles à l’adresse suivante : https://jegzheng.github.io/LEGODiffusion.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp