AOG-LSTM: Ein adaptives Aufmerksamkeits-Neuronales Netzwerk für visuelle Geschichtenbildung
Visual Storytelling ist die Aufgabe, zu einer gegebenen Bildsequenz eine zusammenhängende Geschichte zu generieren, die erhebliche Aufmerksamkeit erfahren hat. Allerdings beschränken allgemeine RNNs (wie LSTM und GRU), die als Decoder eingesetzt werden, die Leistungsfähigkeit der Modelle in diesem Bereich. Dies liegt daran, dass sie nicht in der Lage sind, verschiedene Arten von Informationsdarstellungen zu unterscheiden. Zudem führt die Optimierung der Wahrscheinlichkeiten nachfolgender Wörter unter der Bedingung der vorherigen Ground-Truth-Sequenzen zu einer Fehlerakkumulation während der Inferenz. Darüber hinaus berücksichtigt die bestehende Methode zur Minderung der Fehlerakkumulation, die durch Ersetzen von Referenzwörtern erfolgt, nicht die unterschiedlichen Auswirkungen jedes einzelnen Wortes. Um diese Probleme zu lösen, schlagen wir jeweils ein modifiziertes neuronales Netzwerk namens AOG-LSTM und eine modifizierte Trainingsstrategie namens ARS vor. AOG-LSTM kann adaptiv angemessene Aufmerksamkeit auf verschiedene Informationsdarstellungen innerhalb des Modells richten, je nachdem, welches Wort vorhergesagt wird. Während des Trainings ersetzt ARS einige Wörter in den Referenzsätzen durch Modellvorhersagen, ähnlich wie die bestehende Methode. Wir nutzen jedoch ein Selektionsnetzwerk und eine Selektionsstrategie, um geeignetere Wörter für die Ersetzung auszuwählen, um die Modellleistung besser zu verbessern. Experimente auf dem VIST-Datensatz zeigen, dass unser Modell mehrere starke Baselines hinsichtlich der am häufigsten verwendeten Metriken übertrifft.