HyperAIHyperAI
vor 3 Monaten

Kohärente visuelle Geschichtenerzählung mittels paralleler top-down visueller und thematischer Aufmerksamkeit

{Hanli Wang, Jinjing Gu}
Kohärente visuelle Geschichtenerzählung mittels paralleler top-down visueller und thematischer Aufmerksamkeit
Abstract

Visual Storytelling zielt darauf ab, automatisch einen narrativen Absatz für ein gegebenes Fotobuch zu generieren. Dies stellt gegenüber der Beschreibung einzelner Bilder neue Herausforderungen dar, insbesondere aufgrund der Schwierigkeit, kohärente Themen zu bewahren und vielfältige Formulierungen zu erzeugen, um den reichen Inhalt eines Fotobuchs angemessen darzustellen. Bestehende auf Aufmerksamkeit basierende Modelle, die über keine höherstufige Leitinformation verfügen, führen häufig zu einer Abweichung zwischen dem generierten Satz und dem vom Bild vermittelten Thema. Zudem neigen die weit verbreiteten Ansätze zur Sprachgenerierung, die die Standard-Beam-Search-Strategie verwenden, dazu, monoton klingende Beschreibungen zu erzeugen. In dieser Arbeit wird ein kohärentes Visual Storytelling (CoVS)-Framework vorgestellt, um die oben genannten Probleme anzugehen. Konkret wird im Encoding-Schritt ein Bildsequenz-Encoder entworfen, um die visuellen Merkmale des Eingabefotobuchs effizient zu extrahieren. Anschließend wird der neuartige parallele top-down visuelle und themenbasierte Aufmerksamkeits-Decoder (PTDVTA) durch ein themenbewusstes neuronales Netzwerk, ein paralleles top-down Aufmerksamkeitsmodell und einen kohärenten Sprachgenerator konstruiert. Genauer betrachtet konzentriert sich die visuelle Aufmerksamkeit auf die Merkmale und Beziehungen der Objekte, während die themenbasierte Aufmerksamkeit, unterstützt durch ein themenbewusstes neuronales Netzwerk, die Kohärenz der generierten Sätze verbessert. Schließlich wird ein Phrasen-Beam-Search-Algorithmus mit n-gramm-Hamming-Diversität weiterentwickelt, um die Ausdrucksdiversität der generierten Geschichte zu optimieren. Um die Wirksamkeit des vorgeschlagenen CoVS-Frameworks zu belegen, werden umfangreiche Experimente auf dem VIST-Datensatz durchgeführt, die zeigen, dass CoVS in natürlicher Weise kohärente und vielfältige Geschichten automatisch generieren kann. Darüber hinaus erzielt CoVS bessere Ergebnisse als aktuelle State-of-the-Art-Baselines hinsichtlich der BLEU-4- und METEOR-Scores, während gleichzeitig gute CIDEr- und ROUGH_L-Scores beibehalten werden. Der Quellcode dieser Arbeit ist unter https://mic.tongji.edu.cn verfügbar.