SVG-T2I : Augmenter l'échelle du modèle de diffusion latente Texte-Vers-Image sans Autoencodeur Variationnel
SVG-T2I : Augmenter l'échelle du modèle de diffusion latente Texte-Vers-Image sans Autoencodeur Variationnel

Résumé
La génération visuelle fondée sur les représentations des modèles fondamentaux visuels (Visual Foundation Models, VFMs) offre une voie unifiée particulièrement prometteuse pour intégrer la compréhension visuelle, la perception et la génération. Malgré ce potentiel, l'entraînement de modèles de diffusion texte-à-image à grande échelle entièrement dans l'espace de représentation des VFMs reste largement exploré. Pour combler cet écart, nous avons étendu le cadre SVG (Self-supervised representations for Visual Generation), en proposant SVG-T2I, permettant une synthèse texte-à-image de haute qualité directement dans le domaine des caractéristiques des VFMs. En exploitant une pipeline standard de diffusion texte-à-image, SVG-T2I atteint des performances compétitives, avec un score de 0,75 sur GenEval et 85,78 sur DPG-Bench. Ces résultats valident le pouvoir représentationnel intrinsèque des VFMs pour les tâches génératives. Nous mettons entièrement à disposition en open source ce projet, incluant l’autoencodeur et le modèle de génération, ainsi que leurs pipelines d’entraînement, d’inférence et d’évaluation, ainsi que les poids pré-entraînés, afin de favoriser les recherches futures dans le domaine de la génération visuelle pilotée par les représentations.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.