il y a 3 mois

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

Les progrès récents dans la génération visuelle basée sur les modèles de diffusion s'appuient largement sur les modèles de diffusion latents utilisant des autoencodeurs variationnels (VAE). Bien qu'efficaces pour la synthèse de haute fidélité, ce paradigme VAE + diffusion souffre de rendements d'entraînement limités, d'une inférence lente et d'une faible transférabilité vers des tâches visuelles plus larges. Ces limitations proviennent d'un point faible fondamental des espaces latents VAE : le manque de séparation sémantique claire et d'une structure discriminative forte. Notre analyse confirme que ces propriétés sont cruciales non seulement pour les tâches de perception et de compréhension, mais aussi pour l'entraînement stable et efficace des modèles de diffusion latents. Inspirés par cette observation, nous introduisons SVG, un nouveau modèle de diffusion latente ne faisant pas appel aux autoencodeurs variationnels, et exploitant des représentations auto-supervisées pour la génération visuelle. SVG construit un espace de caractéristiques doté d'une discriminabilité sémantique nette en s'appuyant sur des caractéristiques figées issues de DINO, tandis qu'une branche résiduelle légère capte les détails fins pour une reconstruction de haute fidélité. Les modèles de diffusion sont entraînés directement sur cet espace latente structuré sémantiquement, ce qui favorise un apprentissage plus efficace. En conséquence, SVG permet un entraînement accéléré de la diffusion, supporte l'échantillonnage en peu d'étapes et améliore la qualité de génération. Les résultats expérimentaux montrent également que SVG préserve les capacités sémantiques et discriminatives des représentations auto-supervisées sous-jacentes, offrant ainsi une voie structurée vers des représentations visuelles de haute qualité, généralisables à diverses tâches.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Modèle de diffusion latent sans autoencodeur variationnel

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèle de diffusion latent sans autoencodeur variationnel

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Modèle de diffusion latent sans autoencodeur variationnel

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters