Geschichten aus einem Bildstrom mittels Szenengraphen erzählen
Visual Storytelling zielt darauf ab, aus einem Bildstrom eine Geschichtenerzählung zu generieren. Die meisten bestehenden Methoden stellen Bilder direkt durch extrahierte hochlevel-Features dar, was jedoch nicht intuitiv ist und schwer interpretierbar. Wir argumentieren, dass die Übersetzung jedes Bildes in eine graphbasierte semantische Darstellung – also ein Szenengraph –, die Objekte und deren Beziehungen innerhalb des Bildes explizit kodiert, zur besseren Repräsentation und Beschreibung von Bildern beitragen würde. Dementsprechend schlagen wir eine neuartige graphbasierte Architektur für Visual Storytelling vor, die zweistufige Beziehungen innerhalb von Szenengraphen modelliert. Insbesondere auf der innerbildlichen Ebene nutzen wir ein Graph Convolution Network (GCN), um die lokalen, feinkörnigen Regionenrepräsentationen von Objekten im Szenengraph zu verfeinern. Um zudem die Interaktion zwischen den Bildern zu modellieren, setzen wir auf der zwischenbildlichen Ebene ein Temporal Convolution Network (TCN) ein, um die Regionenrepräsentationen entlang der zeitlichen Dimension zu verbessern. Anschließend werden die relationenbewussten Repräsentationen in eine Gated Recurrent Unit (GRU) mit Aufmerksamkeitsmechanismus eingespeist, um die Geschichtenerzeugung durchzuführen. Experimente wurden auf einem öffentlichen Visual Storytelling-Datensatz durchgeführt. Automatisierte sowie menschliche Bewertungen zeigen, dass unsere Methode den aktuellen Stand der Technik erreicht.