HyperAIHyperAI

Command Palette

Search for a command to run...

BERT-hLSTMs: BERT und hierarchische LSTMs für visuelle Geschichtenerzählung

Jing Su Qingyun Dai Frank Guerin Mian Zhou

Zusammenfassung

Visuelle Geschichtenerzählung ist eine kreative und herausfordernde Aufgabe, die darauf abzielt, automatisch eine geschichtsähnliche Beschreibung für eine Folge von Bildern zu generieren. Die von früheren Ansätzen zur visuellen Geschichtenerzählung generierten Beschreibungen weisen aufgrund der Verwendung von Wort-Ebene-Sequenzgenerierungsmethoden und der unzureichenden Berücksichtigung von Satz-Ebene-Abhängigkeiten oft mangelnde Kohärenz auf. Um dieses Problem anzugehen, schlagen wir einen neuartigen hierarchischen Rahmen für die visuelle Geschichtenerzählung vor, der Satz- und Wort-Ebene-Semantik getrennt modelliert. Wir verwenden einen auf Transformer basierenden BERT, um Embeddings für Sätze und Wörter zu erzeugen. Anschließend setzen wir ein hierarchisches LSTM-Netzwerk ein: das untere LSTM erhält als Eingabe die Satzvektorrepräsentation aus BERT, um die Abhängigkeiten zwischen den Sätzen, die den Bildern entsprechen, zu lernen, während das obere LSTM für die Generierung der entsprechenden Wortvektorrepräsentationen zuständig ist und Eingaben vom unteren LSTM erhält. Experimentelle Ergebnisse zeigen, dass unser Modell die meisten verwandten Baselines hinsichtlich der automatischen Bewertungsmaße BLEU und CIDEr übertrifft und zudem die Wirksamkeit unseres Ansatzes auch in menschlichen Bewertungen belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp