HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Visuelle Geschichten erzählen mit hierarchischer BERT-Semantik-Anleitung

{and Xianhui Liu Jinjing Gu Hanli Wang Ruichao Fan}

Abstract

Visuelle Erzählung, die darauf abzielt, automatisch einen narrativen Absatz für ein Fotoalbum zu generieren, bleibt aufgrund der Komplexität und Vielfalt des Inhalts von Fotoalben äußerst herausfordernd. Zudem umfassen offene Domänen-Fotoalben ein breites Spektrum an Themen, was zu einer stark variablen Vokabular- und Ausdrucksweise bei der Beschreibung der Alben führt. In dieser Arbeit wird ein neuartiger Lehrer-Schüler-Framework für visuelle Erzählung mit hierarchischer BERT-Semantikführung (HBSG) vorgestellt, um die oben genannten Herausforderungen zu bewältigen. Der vorgeschlagene Lehrer-Modul besteht aus zwei gemeinsam durchgeführten Aufgaben: der generellen latenten Themenbildung auf Wortebene und der semantikgesteuerten Satzgenerierung. Die erste Aufgabe zielt darauf ab, das latente Thema der Erzählung vorherzusagen. Da keine ground-truth-Themeninformationen vorliegen, wird ein vortrainiertes BERT-Modell, das auf visuellen Inhalten und annotierten Geschichten basiert, eingesetzt, um Themen zu extrahieren. Anschließend wird der Themenvektor an ein speziell entworfenes Bild-Themen-Vorhersagemodell abgeleitet. Bei der semantikgesteuerten Satzgenerierung dient HBSG zweifacher Zwecke: Erstens dient es dazu, die Sprachkomplexität über verschiedene Themen hinweg zu reduzieren. Hierzu wird ein Co-Attention-Decoder entwickelt, der sowohl visuelle als auch semantische Informationen nutzt, um latente Themen zur Induktion themenbezogener Sprachmodelle einzusetzen. Zweitens wird die Satzsemantik als externer, online verfügbaren linguistischer Lehrmodul eingesetzt. Schließlich wird eine Hilfsverlustfunktion entworfen, um linguistisches Wissen in das Sprachgenerierungsmodell zu integrieren. Um die Wirksamkeit des HBSG-Frameworks zu demonstrieren, wurden umfangreiche Experimente durchgeführt, die zeigen, dass das vorgeschlagene Verfahren die derzeit besten Ansätze auf dem VIST-Testset übertrifft.

Benchmarks

BenchmarkMethodikMetriken
visual-storytelling-on-vistHBSG
BLEU-4: 15.4
METEOR: 36.5

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Geschichten erzählen mit hierarchischer BERT-Semantik-Anleitung | Forschungsarbeiten | HyperAI