Visuelle Geschichten erzählen mit hierarchischer BERT-Semantik-Anleitung
Visuelle Erzählung, die darauf abzielt, automatisch einen narrativen Absatz für ein Fotoalbum zu generieren, bleibt aufgrund der Komplexität und Vielfalt des Inhalts von Fotoalben äußerst herausfordernd. Zudem umfassen offene Domänen-Fotoalben ein breites Spektrum an Themen, was zu einer stark variablen Vokabular- und Ausdrucksweise bei der Beschreibung der Alben führt. In dieser Arbeit wird ein neuartiger Lehrer-Schüler-Framework für visuelle Erzählung mit hierarchischer BERT-Semantikführung (HBSG) vorgestellt, um die oben genannten Herausforderungen zu bewältigen. Der vorgeschlagene Lehrer-Modul besteht aus zwei gemeinsam durchgeführten Aufgaben: der generellen latenten Themenbildung auf Wortebene und der semantikgesteuerten Satzgenerierung. Die erste Aufgabe zielt darauf ab, das latente Thema der Erzählung vorherzusagen. Da keine ground-truth-Themeninformationen vorliegen, wird ein vortrainiertes BERT-Modell, das auf visuellen Inhalten und annotierten Geschichten basiert, eingesetzt, um Themen zu extrahieren. Anschließend wird der Themenvektor an ein speziell entworfenes Bild-Themen-Vorhersagemodell abgeleitet. Bei der semantikgesteuerten Satzgenerierung dient HBSG zweifacher Zwecke: Erstens dient es dazu, die Sprachkomplexität über verschiedene Themen hinweg zu reduzieren. Hierzu wird ein Co-Attention-Decoder entwickelt, der sowohl visuelle als auch semantische Informationen nutzt, um latente Themen zur Induktion themenbezogener Sprachmodelle einzusetzen. Zweitens wird die Satzsemantik als externer, online verfügbaren linguistischer Lehrmodul eingesetzt. Schließlich wird eine Hilfsverlustfunktion entworfen, um linguistisches Wissen in das Sprachgenerierungsmodell zu integrieren. Um die Wirksamkeit des HBSG-Frameworks zu demonstrieren, wurden umfangreiche Experimente durchgeführt, die zeigen, dass das vorgeschlagene Verfahren die derzeit besten Ansätze auf dem VIST-Testset übertrifft.