HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Wissender Erzähler: Ein gemeinsames Sinn-geleitetes generatives Modell für visuelle Geschichten

{Xu sun Zhiyi Yin Lei LI Xiaodong He Pengcheng Yang Fuli Luo Peng Chen}

Wissender Erzähler: Ein gemeinsames Sinn-geleitetes generatives Modell für visuelle Geschichten

Abstract

Die Aufgabe des visuellen Geschichtenerzählens (Visual Storytelling, VST) zielt darauf ab, auf Basis eines Bildstroms eine sinnvolle und kohärente Textpassage auf Satzebene zu generieren. Im Gegensatz zu Bildunterschriften, die eine direkte und wörtliche Beschreibung des Bildinhalts liefern, enthält die Geschichte im VST-Task typischerweise zahlreiche imaginäre Konzepte, die im Bild selbst nicht explizit erscheinen. Dies erfordert von der KI-Agentin die Fähigkeit, auf der Grundlage impliziter alltäglicher Erfahrungswissen (commonsense knowledge) imaginäre Konzepte zu inferieren und in Beziehung zu setzen, um eine plausibel erscheinende Erzählung zu generieren. In dieser Arbeit präsentieren wir daher ein auf alltäglichem Wissen basierendes generatives Modell, das darauf abzielt, entscheidendes alltägliches Wissen aus einer externen Wissensbasis in den Prozess der Geschichtenerzählung einzubinden. Unser Ansatz extrahiert zunächst eine Reihe von Kandidat-Knowledggraphs aus der Wissensbasis. Anschließend wird ein sorgfältig entworfenes, visionssensitives gerichtetes Kodierungsverfahren eingesetzt, um das informativste alltägliche Wissen effizient zu integrieren. Darüber hinaus streben wir an, während des Decodierprozesses die semantische Ähnlichkeit innerhalb der Ausgabe zu maximieren, um die Kohärenz des generierten Textes zu erhöhen. Die Ergebnisse zeigen, dass unser Ansatz die derzeit besten Systeme deutlich übertrifft, wobei eine relative Verbesserung des CIDEr-Scores um 29 % erzielt wird. Durch die zusätzliche Berücksichtigung von alltäglichem Wissen und einer semantischen Relevanz-orientierten Zielfunktion sind die generierten Geschichten zudem vielfältiger und kohärenter.

Benchmarks

BenchmarkMethodikMetriken
visual-storytelling-on-vistK-Storyteller
BLEU-4: 12.8
CIDEr: 12.1
METEOR: 35.2
ROUGE-L: 29.9

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wissender Erzähler: Ein gemeinsames Sinn-geleitetes generatives Modell für visuelle Geschichten | Forschungsarbeiten | HyperAI