HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 8 jours

Modèle de diffusion latent sans autoencodeur variationnel

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Modèle de diffusion latent sans autoencodeur variationnel

Résumé

Les progrès récents dans la génération visuelle basée sur les modèles de diffusion s'appuient largement sur les modèles de diffusion latents utilisant des autoencodeurs variationnels (VAE). Bien qu'efficaces pour la synthèse de haute fidélité, ce paradigme VAE + diffusion souffre de rendements d'entraînement limités, d'une inférence lente et d'une faible transférabilité vers des tâches visuelles plus larges. Ces limitations proviennent d'un point faible fondamental des espaces latents VAE : le manque de séparation sémantique claire et d'une structure discriminative forte. Notre analyse confirme que ces propriétés sont cruciales non seulement pour les tâches de perception et de compréhension, mais aussi pour l'entraînement stable et efficace des modèles de diffusion latents. Inspirés par cette observation, nous introduisons SVG, un nouveau modèle de diffusion latente ne faisant pas appel aux autoencodeurs variationnels, et exploitant des représentations auto-supervisées pour la génération visuelle. SVG construit un espace de caractéristiques doté d'une discriminabilité sémantique nette en s'appuyant sur des caractéristiques figées issues de DINO, tandis qu'une branche résiduelle légère capte les détails fins pour une reconstruction de haute fidélité. Les modèles de diffusion sont entraînés directement sur cet espace latente structuré sémantiquement, ce qui favorise un apprentissage plus efficace. En conséquence, SVG permet un entraînement accéléré de la diffusion, supporte l'échantillonnage en peu d'étapes et améliore la qualité de génération. Les résultats expérimentaux montrent également que SVG préserve les capacités sémantiques et discriminatives des représentations auto-supervisées sous-jacentes, offrant ainsi une voie structurée vers des représentations visuelles de haute qualité, généralisables à diverses tâches.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèle de diffusion latent sans autoencodeur variationnel | Articles de recherche | HyperAI