HyperAIHyperAI
vor 11 Tagen

Geschichten aus einem Bildstrom mittels Szenengraphen erzählen

{Xuanjing Huang, Qi Zhang, Piji Li, Zhongyu Wei, Ruize Wang}
Abstract

Visual Storytelling zielt darauf ab, aus einem Bildstrom eine Geschichtenerzählung zu generieren. Die meisten bestehenden Methoden stellen Bilder direkt durch extrahierte hochlevel-Features dar, was jedoch nicht intuitiv ist und schwer interpretierbar. Wir argumentieren, dass die Übersetzung jedes Bildes in eine graphbasierte semantische Darstellung – also ein Szenengraph –, die Objekte und deren Beziehungen innerhalb des Bildes explizit kodiert, zur besseren Repräsentation und Beschreibung von Bildern beitragen würde. Dementsprechend schlagen wir eine neuartige graphbasierte Architektur für Visual Storytelling vor, die zweistufige Beziehungen innerhalb von Szenengraphen modelliert. Insbesondere auf der innerbildlichen Ebene nutzen wir ein Graph Convolution Network (GCN), um die lokalen, feinkörnigen Regionenrepräsentationen von Objekten im Szenengraph zu verfeinern. Um zudem die Interaktion zwischen den Bildern zu modellieren, setzen wir auf der zwischenbildlichen Ebene ein Temporal Convolution Network (TCN) ein, um die Regionenrepräsentationen entlang der zeitlichen Dimension zu verbessern. Anschließend werden die relationenbewussten Repräsentationen in eine Gated Recurrent Unit (GRU) mit Aufmerksamkeitsmechanismus eingespeist, um die Geschichtenerzeugung durchzuführen. Experimente wurden auf einem öffentlichen Visual Storytelling-Datensatz durchgeführt. Automatisierte sowie menschliche Bewertungen zeigen, dass unsere Methode den aktuellen Stand der Technik erreicht.

Geschichten aus einem Bildstrom mittels Szenengraphen erzählen | Neueste Forschungsarbeiten | HyperAI