Guidage d'un modèle de diffusion par une version défectueuse de lui-même

Les axes principaux d'intérêt dans les modèles de diffusion générant des images sont la qualité de l'image, le degré de variation des résultats, ainsi que la fidélité des sorties par rapport à une condition donnée, par exemple une étiquette de classe ou une requête textuelle. L'approche populaire de guidance sans classificateur utilise un modèle non conditionnel pour guider un modèle conditionnel, ce qui permet d'obtenir à la fois une meilleure alignement avec la requête et une qualité d'image améliorée, au prix d'une réduction de la variation des résultats. Ces effets semblent intrinsèquement entrelacés, rendant leur contrôle difficile. Nous faisons l'observation surprenante que l'on peut obtenir un contrôle désentraîné de la qualité de l'image sans compromettre le niveau de variation en guidant la génération à l'aide d'une version plus petite et moins entraînée du modèle lui-même, plutôt qu'un modèle non conditionnel. Cette approche permet d'obtenir des améliorations significatives dans la génération d'images sur ImageNet, atteignant des scores FID record de 1,01 pour des images 64×64 et de 1,25 pour des images 512×512, en utilisant uniquement des réseaux disponibles publiquement. En outre, la méthode s'applique également aux modèles de diffusion non conditionnels, améliorant drastiquement leur qualité.