Command Palette
Search for a command to run...
Modèle de diffusion latent sans autoencodeur variationnel
Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé
Les progrès récents dans la génération visuelle basée sur les modèles de diffusion s'appuient largement sur les modèles de diffusion latents utilisant des autoencodeurs variationnels (VAE). Bien qu'efficaces pour la synthèse de haute fidélité, ce paradigme VAE + diffusion souffre de rendements d'entraînement limités, d'une inférence lente et d'une faible transférabilité vers des tâches visuelles plus larges. Ces limitations proviennent d'un point faible fondamental des espaces latents VAE : le manque de séparation sémantique claire et d'une structure discriminative forte. Notre analyse confirme que ces propriétés sont cruciales non seulement pour les tâches de perception et de compréhension, mais aussi pour l'entraînement stable et efficace des modèles de diffusion latents. Inspirés par cette observation, nous introduisons SVG, un nouveau modèle de diffusion latente ne faisant pas appel aux autoencodeurs variationnels, et exploitant des représentations auto-supervisées pour la génération visuelle. SVG construit un espace de caractéristiques doté d'une discriminabilité sémantique nette en s'appuyant sur des caractéristiques figées issues de DINO, tandis qu'une branche résiduelle légère capte les détails fins pour une reconstruction de haute fidélité. Les modèles de diffusion sont entraînés directement sur cet espace latente structuré sémantiquement, ce qui favorise un apprentissage plus efficace. En conséquence, SVG permet un entraînement accéléré de la diffusion, supporte l'échantillonnage en peu d'étapes et améliore la qualité de génération. Les résultats expérimentaux montrent également que SVG préserve les capacités sémantiques et discriminatives des représentations auto-supervisées sous-jacentes, offrant ainsi une voie structurée vers des représentations visuelles de haute qualité, généralisables à diverses tâches.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.