NUWA-Infinity : Génération autoregressive sur autoregressive pour la synthèse visuelle infinie

Dans cet article, nous présentons NUWA-Infinity, un modèle génératif pour la synthèse visuelle infinie, défini comme la tâche de générer des images en haute résolution de taille arbitraire ou des vidéos de longue durée. Un mécanisme de génération auto-régressive sur auto-régressive est proposé pour traiter cette tâche de génération à taille variable, où un modèle auto-régressif global au niveau des patches prend en compte les dépendances entre les patches, et un modèle auto-régressif local au niveau des tokens prend en compte les dépendances entre les tokens visuels dans chaque patch. Une Piscine de Contexte Proche (Nearby Context Pool [NCP]) est introduite pour stocker les patches déjà générés en tant que contexte pour le patch actuellement généré, ce qui permet de réduire considérablement les coûts de calcul sans sacrifier la modélisation des dépendances au niveau des patches. Un Contrôleur Arbitraire de Direction (Arbitrary Direction Controller [ADC]) est utilisé pour déterminer l'ordre de génération approprié pour différentes tâches de synthèse visuelle et apprendre des plongements positionnels sensibles à l'ordre. Comparé à DALL-E, Imagen et Parti, NUWA-Infinity peut générer des images en haute résolution de tailles arbitraires et prendre en charge la génération de vidéos de longue durée. Par rapport à NUWA, qui couvre également les images et les vidéos, NUWA-Infinity offre des capacités supérieures de synthèse visuelle en termes de résolution et de génération à taille variable. Le lien GitHub est https://github.com/microsoft/NUWA. Le lien vers la page d'accueil est https://nuwa-infinity.microsoft.com.