HyperAIHyperAI

Command Palette

Search for a command to run...

Informative Visuelle Geschichtenerzählung mit Kreuzmodalen Regeln

Jiacheng Li Haizhou Shi Siliang Tang* Fei Wu Yueting Zhuang

Zusammenfassung

Bestehende Methoden im Bereich des visuellen Erzählens leiden oft daran, dass sie allgemeine Beschreibungen generieren, während das Bild viele bedeutungsvolle Inhalte unberücksichtigt lässt. Das Versagen bei der Erstellung informativer Geschichten kann auf die Unfähigkeit des Modells zurückgeführt werden, genug bedeutungsvolle Konzepte zu erfassen. Diese Konzepte umfassen Kategorien wie Entitäten, Attribute, Aktionen und Ereignisse, die in einigen Fällen für das fundierte Erzählen entscheidend sind. Um dieses Problem zu lösen, schlagen wir eine Methode vor, um multimodale Regeln abzuleiten, die dem Modell helfen sollen, diese informativen Konzepte bei gegebener visueller Eingabe zu inferieren. Zunächst bauen wir multimodale Transaktionen auf, indem wir die Aktivierungen von CNNs (Convolutional Neural Networks) und die Wortindizes verketten. Anschließend verwenden wir einen Algorithmus zur Mining von Assoziationsregeln, um die multimodalen Regeln abzuleiten, die für die Konzeptinferenz verwendet werden. Mit Hilfe dieser multimodalen Regeln sind die generierten Geschichten fundierter und informativer. Darüber hinaus bietet unsere vorgeschlagene Methode den Vorteilen der Interpretierbarkeit, Erweiterbarkeit und Übertragbarkeit, was auf ein Potenzial für eine breitere Anwendung hinweist. Schließlich nutzen wir diese Konzepte in unserem Encoder-Decoder-Framework mit Aufmerksamkeitsmechanismus (attention mechanism). Wir führen mehrere Experimente am VIsual StoryTelling-Datensatz (VIST) durch; die Ergebnisse zeigen sowohl anhand automatischer Metriken als auch menschlicher Bewertungen die Effektivität unseres Ansatzes. Zusätzliche Experimente verdeutlichen zudem, dass unsere abgeleiteten multimodalen Regeln als zusätzliches Wissen dem Modell helfen können, bessere Leistungen zu erzielen, wenn es auf einem kleinen Datensatz trainiert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Informative Visuelle Geschichtenerzählung mit Kreuzmodalen Regeln | Paper | HyperAI