MMT : Génération de fin d’histoire guidée par l’image avec un Transformer à mémoire multimodale
En tant que forme spécifique de génération de récit, la génération de fin de récit guidée par une image (IgSEG) est une tâche récemment proposée visant à produire une fin de récit pour un récit multi-phrases donné, accompagné d'une image pertinente à la fin. Contrairement aux tâches existantes de captioning d’images ou de génération de fins de récit, l’IgSEG vise à générer une description factuelle conforme à la logique contextuelle du récit ainsi qu’aux concepts visuels pertinents. À ce jour, les méthodes existantes pour l’IgSEG négligent les relations entre les informations multimodales et ne fusionnent pas adéquatement les caractéristiques multimodales. Dans ce travail, nous proposons le Modèle Transformer à Mémoire Multimodale (MMT), un cadre end-to-end qui modélise et fusionne à la fois les informations contextuelles et visuelles afin de capturer efficacement les dépendances multimodales pour l’IgSEG. Premièrement, nous extrayons séparément les caractéristiques textuelles et visuelles en utilisant des encodeurs pré-entraînés à grande échelle spécifiques à chaque modalité. Deuxièmement, nous utilisons un réseau d’attention cross-modale augmenté de mémoire pour apprendre les relations entre les modalités et réaliser une fusion fine des caractéristiques. Enfin, un décodeur transformer multimodal établit une attention entre les caractéristiques multimodales afin d’apprendre les dépendances du récit et de générer des fins de récit informatives, cohérentes et plausibles. Les expérimentations montrent que les résultats d’évaluation automatique et humaine étendus indiquent une amélioration significative des performances de notre modèle MMT par rapport aux méthodes de pointe sur deux jeux de données de référence.