Modèles probabilistes de diffusion tronqués et auto-encodeurs adversaires basés sur la diffusion

En utilisant une chaîne de diffusion progressive pour mapper progressivement les données vers une distribution de bruit, les modèles génératifs fondés sur la diffusion apprennent à générer les données en inférant une chaîne de diffusion inverse. Toutefois, cette approche est lente et coûteuse, car elle nécessite un grand nombre d’étapes de diffusion directe et inverse. Nous proposons une approche plus rapide et moins coûteuse, qui ajoute du bruit non pas jusqu’à ce que les données deviennent un bruit aléatoire pur, mais jusqu’à ce qu’elles atteignent une distribution cachée de données bruitées que nous pouvons apprendre de manière fiable. Ensuite, nous utilisons un nombre réduit d’étapes inverses pour générer des données en partant de cette distribution cachée, qui est rendue similaire à celle des données bruitées. Nous montrons que le modèle proposé peut être formulé comme un auto-encodeur adversarial renforcé à la fois par le processus de diffusion et par un prior implicite apprenable. Les résultats expérimentaux démontrent que, même avec un nombre significativement réduit d’étapes de diffusion inverse, les modèles probabilistes de diffusion tronqués proposés offrent des améliorations constantes par rapport aux modèles non tronqués, tant pour la génération d’images sans condition que pour la génération d’images guidée par le texte.