HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Geschichtenerzählung durch die Vorhersage von Anchor-Wort-Embeddings in Geschichten

Bowen Zhang Hexiang Hu Fei Sha

Zusammenfassung

Wir schlagen ein Lernmodell für die Aufgabe des visuellen Erzählens vor. Der zentrale Ansatz besteht darin, Anchor-Wort-Einbettungen aus Bildern vorherzusagen und diese gemeinsam mit den Bildmerkmalen zur Generierung narrativer Sätze zu nutzen. Als Zielanchor-Wort-Einbettungen dienen die Einbettungen zufällig aus den Groundtruth-Geschichten ausgewählter Substantive, um den Vorhersage-Modell zu trainieren. Um eine Folge von Bildern zu erzählen, verwenden wir die vorhergesagten Anchor-Wort-Einbettungen und die Bildmerkmale gemeinsam als Eingabe für ein Seq2Seq-Modell. Im Gegensatz zu aktuellen State-of-the-Art-Methoden ist das vorgeschlagene Modell einfach gestaltet, leicht zu optimieren und erzielt in den meisten automatischen Bewertungsmaßen die besten Ergebnisse. Auch in der menschlichen Bewertung übertrifft die Methode die konkurrierenden Ansätze.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp