Informative Visuelle Geschichtenerzählung mit Kreuzmodalen Regeln

Bestehende Methoden im Bereich des visuellen Erzählens leiden oft daran, dass sie allgemeine Beschreibungen generieren, während das Bild viele bedeutungsvolle Inhalte unberücksichtigt lässt. Das Versagen bei der Erstellung informativer Geschichten kann auf die Unfähigkeit des Modells zurückgeführt werden, genug bedeutungsvolle Konzepte zu erfassen. Diese Konzepte umfassen Kategorien wie Entitäten, Attribute, Aktionen und Ereignisse, die in einigen Fällen für das fundierte Erzählen entscheidend sind. Um dieses Problem zu lösen, schlagen wir eine Methode vor, um multimodale Regeln abzuleiten, die dem Modell helfen sollen, diese informativen Konzepte bei gegebener visueller Eingabe zu inferieren. Zunächst bauen wir multimodale Transaktionen auf, indem wir die Aktivierungen von CNNs (Convolutional Neural Networks) und die Wortindizes verketten. Anschließend verwenden wir einen Algorithmus zur Mining von Assoziationsregeln, um die multimodalen Regeln abzuleiten, die für die Konzeptinferenz verwendet werden. Mit Hilfe dieser multimodalen Regeln sind die generierten Geschichten fundierter und informativer. Darüber hinaus bietet unsere vorgeschlagene Methode den Vorteilen der Interpretierbarkeit, Erweiterbarkeit und Übertragbarkeit, was auf ein Potenzial für eine breitere Anwendung hinweist. Schließlich nutzen wir diese Konzepte in unserem Encoder-Decoder-Framework mit Aufmerksamkeitsmechanismus (attention mechanism). Wir führen mehrere Experimente am VIsual StoryTelling-Datensatz (VIST) durch; die Ergebnisse zeigen sowohl anhand automatischer Metriken als auch menschlicher Bewertungen die Effektivität unseres Ansatzes. Zusätzliche Experimente verdeutlichen zudem, dass unsere abgeleiteten multimodalen Regeln als zusätzliches Wissen dem Modell helfen können, bessere Leistungen zu erzielen, wenn es auf einem kleinen Datensatz trainiert wird.