il y a 2 mois

Visualisation de l'histoire par augmentation de texte en ligne avec mémoire contextuelle

Daechul Ahn; Daneul Kim; Gwangmo Song; Seung Hwan Kim; Honglak Lee; Dongyeop Kang; Jonghyun Choi

Résumé

La visualisation narrative (SV) est une tâche complexe de génération d'images à partir de texte, en raison des difficultés non seulement à rendre les détails visuels à partir des descriptions textuelles, mais aussi à encoder un contexte à long terme sur plusieurs phrases. Bien que les travaux précédents se concentrent principalement sur la génération d'une image sémantiquement pertinente pour chaque phrase, l'encodage d'un contexte réparti tout au long du paragraphe donné afin de produire des images convaincantes sur le plan contextuel (par exemple, avec un personnage correct ou avec un arrière-plan approprié de la scène) reste un défi. À cet égard, nous proposons une nouvelle architecture mémoire pour le cadre de Transformers bidirectionnels, associée à une augmentation de texte en ligne qui génère plusieurs descriptions fictives comme supervision supplémentaire pendant l'entraînement, pour une meilleure généralisation aux variations linguistiques lors de l'inférence. Dans des expériences exhaustives menées sur deux benchmarks populaires de SV, à savoir Pororo-SV et Flintstones-SV, la méthode proposée dépasse significativement l'état de l'art selon diverses métriques, notamment le FID, le F1 des personnages, la précision des images, BLEU-2/3 et R-précision, avec une complexité computationnelle similaire ou moindre.