Synthèse d'une histoire cohérente avec des modèles de diffusion latente auto-régressive

Les modèles de diffusion conditionnelle ont démontré une capacité de synthèse d'images à partir de texte d'avant-garde. Récemment, la plupart des travaux se concentrent sur la génération d'images indépendantes ; cependant, pour les applications dans le monde réel, il est courant et nécessaire de produire une série d'images cohérentes pour raconter des histoires. Dans ce travail, nous nous concentrons principalement sur les tâches de visualisation et de continuation d'histoires et proposons AR-LDM, un modèle de diffusion latente conditionné auto-régressivement sur des légendes historiques et des images générées. De plus, AR-LDM peut être généralisé à de nouveaux personnages grâce à l'adaptation. À notre connaissance, c'est le premier travail qui utilise avec succès les modèles de diffusion pour la synthèse visuelle cohérente d'histoires. Les résultats quantitatifs montrent que AR-LDM obtient des scores FID (Fréchet Inception Distance) SoTA (State-of-the-Art) sur PororoSV, FlintstonesSV et le nouveau jeu de données complexe VIST contenant des images naturelles. Des évaluations humaines à grande échelle montrent que AR-LDM présente une performance supérieure en termes de qualité, pertinence et cohérence.