Génération visuelle autoregressive aléatoire

Cet article présente un modèle d’auto-régression aléatoire (RAR) pour la génération visuelle, qui établit une nouvelle référence en matière de performance sur la tâche de génération d’images tout en maintenant une compatibilité complète avec les cadres de modélisation linguistique. Le RAR proposé est simple : au cours d’un processus d’entraînement standard d’auto-régression basé sur la prédiction du prochain jeton, la séquence d’entrée — généralement ordonnée selon un format raster — est aléatoirement permutée selon des ordres de factorisation différents avec une probabilité r, où r commence à 1 et décroît linéairement vers 0 au fil de l’entraînement. Cette stratégie d’entraînement par recuit permet au modèle d’apprendre à maximiser la vraisemblance attendue sur l’ensemble des ordres de factorisation, améliorant ainsi efficacement sa capacité à modéliser des contextes bidirectionnels. De manière importante, le RAR préserve l’intégrité du cadre d’auto-régression, assurant ainsi une compatibilité totale avec la modélisation linguistique tout en améliorant significativement les performances en génération d’images. Sur le benchmark ImageNet-256, le RAR atteint un score FID de 1,48, dépassant non seulement les générateurs d’images par auto-régression les plus performants précédemment publiés, mais aussi les méthodes les plus avancées basées sur les diffusions et les transformateurs masqués. Le code et les modèles seront rendus disponibles à l’adresse suivante : https://github.com/bytedance/1d-tokenizer