Wissender Erzähler: Ein gemeinsames Sinn-geleitetes generatives Modell für visuelle Geschichten

Die Aufgabe des visuellen Geschichtenerzählens (Visual Storytelling, VST) zielt darauf ab, auf Basis eines Bildstroms eine sinnvolle und kohärente Textpassage auf Satzebene zu generieren. Im Gegensatz zu Bildunterschriften, die eine direkte und wörtliche Beschreibung des Bildinhalts liefern, enthält die Geschichte im VST-Task typischerweise zahlreiche imaginäre Konzepte, die im Bild selbst nicht explizit erscheinen. Dies erfordert von der KI-Agentin die Fähigkeit, auf der Grundlage impliziter alltäglicher Erfahrungswissen (commonsense knowledge) imaginäre Konzepte zu inferieren und in Beziehung zu setzen, um eine plausibel erscheinende Erzählung zu generieren. In dieser Arbeit präsentieren wir daher ein auf alltäglichem Wissen basierendes generatives Modell, das darauf abzielt, entscheidendes alltägliches Wissen aus einer externen Wissensbasis in den Prozess der Geschichtenerzählung einzubinden. Unser Ansatz extrahiert zunächst eine Reihe von Kandidat-Knowledggraphs aus der Wissensbasis. Anschließend wird ein sorgfältig entworfenes, visionssensitives gerichtetes Kodierungsverfahren eingesetzt, um das informativste alltägliche Wissen effizient zu integrieren. Darüber hinaus streben wir an, während des Decodierprozesses die semantische Ähnlichkeit innerhalb der Ausgabe zu maximieren, um die Kohärenz des generierten Textes zu erhöhen. Die Ergebnisse zeigen, dass unser Ansatz die derzeit besten Systeme deutlich übertrifft, wobei eine relative Verbesserung des CIDEr-Scores um 29 % erzielt wird. Durch die zusätzliche Berücksichtigung von alltäglichem Wissen und einer semantischen Relevanz-orientierten Zielfunktion sind die generierten Geschichten zudem vielfältiger und kohärenter.