HyperAIHyperAI
vor 2 Monaten

GLAC Net: GLokale Aufmerksamkeitskaskaden-Netzwerke für die Generierung von mehrbildbasierten Geschichten

Taehyeong Kim; Min-Oh Heo; Seonil Son; Kyoung-Wha Park; Byoung-Tak Zhang
GLAC Net: GLokale Aufmerksamkeitskaskaden-Netzwerke für die Generierung von mehrbildbasierten Geschichten
Abstract

Die Aufgabe der Erzeugung von mehrbildergesteuerten Geschichten, wie zum Beispiel die Herausforderung des Visual Storytelling Datasets (VIST), besteht darin, aus einer gegebenen Bildsequenz mehrere kohärente Sätze zu komponieren. Die Haupt Schwierigkeit liegt darin, bildspezifische Sätze im Kontext aller Bilder zu generieren. Hier stellen wir ein tiefes Lernnetzmodell vor, das GLAC Net, welches visuelle Geschichten durch die Kombination von global-lokalen (glocal) Aufmerksamkeits- und Kontextkaskadenmechanismen erzeugt. Das Modell integriert zwei Aufmerksamkeitsniveaus, nämlich das Gesamtcodierungsniveau und das Bildfetchniveau, um bildabhängige Sätze zu konstruieren. Während eine Standard-Aufmerksamkeitskonfiguration eine große Anzahl von Parametern erfordert, implementiert das GLAC Net diese auf sehr einfache Weise durch harte Verbindungen von den Ausgaben der Codierer oder den Bildmerkmalen zu den Satzgeneratoren. Die Kohärenz der generierten Geschichte wird ferner verbessert, indem die Informationen des vorherigen Satzes nacheinander an den nächsten Satz weitergegeben (kaskadiert) werden. Wir bewerten die Leistung des GLAC Net am Visual Storytelling Dataset (VIST) und erzielen sehr wettbewerbsfähige Ergebnisse im Vergleich zu den neuesten Techniken. Unser Code und unsere vortrainierten Modelle sind hier verfügbar.请注意,"glocal" 是一个较新的术语,用于指代同时考虑全局和局部注意力机制的方法。在德语中,我们保留了 "glocal" 这个词,并在其后加上了英文原词以确保信息的完整性。此外,“Kaskade”(级联)在德语中是一个常见的术语,但在这种特定的技术上下文中使用时,为了确保清晰度,我们在括号内添加了英文原词“cascading”。

GLAC Net: GLokale Aufmerksamkeitskaskaden-Netzwerke für die Generierung von mehrbildbasierten Geschichten | Neueste Forschungsarbeiten | HyperAI