Génération suivante de granularité visuelle

Nous proposons une nouvelle approche de génération d’images en décomposant une image en une séquence structurée, où chaque élément de la séquence présente la même résolution spatiale mais diffère par le nombre de jetons uniques utilisés, permettant ainsi de capturer différents niveaux de granularité visuelle. La génération d’images s’effectue via notre nouveau cadre de génération, appelé Next Visual Granularity (NVG), qui génère une séquence de granularité visuelle à partir d’une image vide, en la raffinant progressivement, de manière structurée, du plan global aux détails fins. Ce processus itératif encode une représentation hiérarchique et multicouche, offrant un contrôle fin sur le processus de génération à travers plusieurs niveaux de granularité. Nous entraînons une série de modèles NVG pour la génération d’images conditionnelles par classe sur le jeu de données ImageNet, et observons un comportement clair d’échelle. En comparaison avec la série VAR, NVG obtient systématiquement de meilleurs scores FID (3,30 → 3,03, 2,57 → 2,44, 2,09 → 2,06). Nous menons également une analyse approfondie pour démontrer les capacités et le potentiel du cadre NVG. Notre code et nos modèles seront publiés.