MMT: Bildgeleitete Generierung von Geschichtenenden mit Multimodalem Gedächtnis-Transformer
Als eine spezifische Form der Geschichtengenerierung stellt die image-gesteuerte Geschichtsendgenerierung (Image-guided Story Ending Generation, IgSEG) eine kürzlich vorgeschlagene Aufgabe dar, bei der ein Geschichtsende für eine gegebene mehrsätziges Handlungsstruktur sowie ein themenrelevantes Bild generiert werden soll. Im Gegensatz zu bestehenden Aufgaben der Bildbeschreibung (image captioning) oder der Geschichtsendgenerierung zielt IgSEG darauf ab, eine faktische Beschreibung zu erzeugen, die sowohl der kontextuellen Logik als auch den relevanten visuellen Konzepten entspricht. Bisherige Ansätze zur IgSEG vernachlässigen die Beziehungen zwischen multimodalen Informationen und integrieren multimodale Merkmale nicht angemessen. Daher stellen wir in dieser Arbeit den Multimodal Memory Transformer (MMT) vor – einen end-to-end-Framework, der sowohl kontextuelle als auch visuelle Informationen modelliert und fusioniert, um die multimodale Abhängigkeit effektiv für die IgSEG zu erfassen. Zunächst extrahieren wir Text- und Bildmerkmale getrennt mittels modality-spezifischer, großskaliger vortrainierter Encoder. Anschließend nutzen wir ein speziell entworfenes, speicherbasiertes, kreuzmodales Aufmerksamkeitsnetzwerk, um die Beziehungen zwischen den Modalitäten zu lernen und fein granulare Merkmalsfusion effizient durchzuführen. Schließlich konstruiert ein multimodaler Transformer-Decoder Aufmerksamkeitsbeziehungen zwischen den multimodalen Merkmalen, um die Geschichtsabhängigkeiten zu lernen und informativ, plausibel sowie kohärente Geschichtsenden zu generieren. In experimentellen Untersuchungen zeigen umfangreiche automatisierte Bewertungen sowie menschliche Bewertungen, dass unser vorgeschlagener MMT gegenüber den derzeit besten Ansätzen auf zwei Standard-Datensätzen eine signifikante Leistungssteigerung erzielt.