SentiStory: Ein mehrschichtiges, sentimentbewusstes generatives Modell für visuelle Geschichten
Die Aufgabe des visuellen Geschichtenerzählens (Visual Storytelling, VIST) zielt darauf ab, sinnvolle, menschlich erscheinende und kohärente Geschichten auf Basis von Bildsequenzen zu generieren. Obwohl viele tiefgreifende Lernmodelle bereits vielversprechende Ergebnisse erzielt haben, berücksichtigen die meisten von ihnen die Stimmungsinformationen von Geschichten nicht direkt. In diesem Paper stellen wir ein stimmungsbehaftetes Generativmodell für VIST namens SentiStory vor. Der Schlüssel von SentiStory ist ein mehrschichtiger Stimmungsextraktionsmodul (Multi-Layered Sentiment Extraction Module, MLSEM). Für eine gegebene Bildsequenz liefert die höhere Schicht grobgezeichnete, jedoch genaue Stimmungen, während die tiefere Schicht des MLSEM fein granulierte, jedoch meist unzuverlässige Stimmungen extrahiert. Diese beiden Schichten werden strategisch kombiniert, um kohärente und reichhaltige visuelle Stimmungskonzepte für die VIST-Aufgabe zu generieren. Ergebnisse aus automatisierten sowie menschlichen Bewertungen zeigen, dass SentiStory durch die Nutzung des MLSEM eine Verbesserung bei der Generierung kohärenterer und menschlicher erscheinender Geschichten erreicht.