StoryDALL-E : Adaptation des Transformateurs Pré-entraînés de Texte en Image pour la Continuation d'Histories

Les récentes avancées dans la synthèse texte-image ont conduit au développement de grands transformateurs pré-entraînés possédant d'excellentes capacités à générer des visualisations à partir d'un texte donné. Cependant, ces modèles sont mal adaptés aux tâches spécialisées comme la visualisation de récits, qui nécessitent qu'un agent produise une séquence d'images à partir d'une séquence correspondante de légendes, formant ainsi un récit. De plus, nous constatons que la tâche de visualisation de récits échoue à généraliser les intrigues et les personnages inconnus dans de nouveaux récits. Par conséquent, nous proposons en premier lieu la tâche de continuation de récit, où l'histoire visuelle générée est conditionnée par une image source, permettant une meilleure généralisation aux récits avec de nouveaux personnages. Ensuite, nous améliorons ou « retro-adaptons » les modèles pré-entraînés de synthèse texte-image avec des modules spécifiques à la tâche pour (a) la génération d'images séquentielles et (b) le copiage d'éléments pertinents d'un cadre initial. Nous explorons ensuite l'affinage complet du modèle ainsi que l'affinage basé sur des prompts pour une adaptation efficace en termes de paramètres du modèle pré-entraîné. Nous évaluons notre approche StoryDALL-E sur deux jeux de données existants, PororoSV et FlintstonesSV, et introduisons un nouveau jeu de données DiDeMoSV collecté à partir d'un ensemble vidéo-légendes. Nous développons également un modèle StoryGANc basé sur les Réseaux Antagonistes Générateurs (GAN) pour la continuation de récit, et le comparons au modèle StoryDALL-E afin de mettre en évidence les avantages de notre approche. Nous montrons que notre approche de retro-adaptation surpasses les modèles basés sur GAN pour la continuation de récit et facilite le copiage d'éléments visuels à partir de l'image source, améliorant ainsi la continuité dans l'histoire visuelle générée. Enfin, notre analyse suggère que les transformateurs pré-entraînés peinent à comprendre des récits contenant plusieurs personnages. Dans son ensemble, notre travail démontre que les modèles pré-entraînés de synthèse texte-image peuvent être adaptés à des tâches complexes et peu dotées en ressources telles que la continuation de récit.