Visuelle Geschichtenerzählung durch die Vorhersage von Anchor-Wort-Embeddings in Geschichten

Wir schlagen ein Lernmodell für die Aufgabe des visuellen Erzählens vor. Der zentrale Ansatz besteht darin, Anchor-Wort-Einbettungen aus Bildern vorherzusagen und diese gemeinsam mit den Bildmerkmalen zur Generierung narrativer Sätze zu nutzen. Als Zielanchor-Wort-Einbettungen dienen die Einbettungen zufällig aus den Groundtruth-Geschichten ausgewählter Substantive, um den Vorhersage-Modell zu trainieren. Um eine Folge von Bildern zu erzählen, verwenden wir die vorhergesagten Anchor-Wort-Einbettungen und die Bildmerkmale gemeinsam als Eingabe für ein Seq2Seq-Modell. Im Gegensatz zu aktuellen State-of-the-Art-Methoden ist das vorgeschlagene Modell einfach gestaltet, leicht zu optimieren und erzielt in den meisten automatischen Bewertungsmaßen die besten Ergebnisse. Auch in der menschlichen Bewertung übertrifft die Methode die konkurrierenden Ansätze.