Stellen Sie sich vor, denken Sie nach und schreiben Sie: Visuelle Geschichtenerzählung mit graphbasiertem Wissen und relationalem Schließen
Visual Storytelling ist eine Aufgabe, bei der auf der Grundlage von Fotostromen kurze Geschichten erstellt werden. Im Gegensatz zu visuellen Caption-Texten enthalten Geschichten nicht nur faktische Beschreibungen, sondern auch imaginäre Konzepte, die in den Bildern nicht direkt erscheinen. In diesem Paper stellen wir einen neuartigen generativen Rahmenwerk namens Imagine-Reason-Write (IRW) für Visual Storytelling vor, der von der logischen Vorgehensweise menschlicher Autoren bei der Geschichtenerstellung inspiriert ist. Zunächst wird ein Imagine-Modul eingesetzt, um die imaginäre Handlung explizit zu lernen und so die Kohärenz und Plausibilität der generierten Geschichte zu verbessern. Anschließend nutzen wir ein Reason-Modul, um externe Wissensbasen (Commonsense-Wissensbasen) sowie auf die Aufgabe spezifische Wissensstrukturen (Szenengraphen und Ereignisgraphen) mittels relationaler Schlussfolgerung basierend auf der entwickelten Handlung vollständig auszunutzen. Auf diese Weise können wir die informativsten commonsense-Beziehungen sowie visuelle Beziehungen zwischen Objekten in den Bildern effektiv erfassen, was die Vielfalt und Informationsdichte der generierten Geschichte erhöht. Schließlich integrieren wir die imaginären Konzepte und relationalen Kenntnisse, um auf Basis der ursprünglichen Semantik der Bilder menschenähnliche Geschichten zu generieren. Umfangreiche Experimente auf einem Benchmark-Datensatz (nämlich VIST) zeigen, dass der vorgeschlagene IRW-Framework die derzeit besten Ansätze signifikant in mehreren Bewertungsmetriken übertrifft.