Hierarchischer Memory-Decoder für visuelles Erzählen
Visual narrating konzentriert sich auf die Generierung semantischer Beschreibungen, um den visuellen Inhalt von Bildern oder Videos zusammenzufassen, beispielsweise im Rahmen von Visual Captioning und Visual Storytelling. Die zentrale Herausforderung besteht darin, einen Decoder zu entwerfen, der präzise Beschreibungen erzeugt, die dem visuellen Inhalt entsprechen. In jüngster Zeit werden häufig rekurrente neuronale Netze (RNN), beispielsweise Long-Short Term Memory (LSTM), als Decoder eingesetzt. Allerdings neigen RNNs dazu, langfristige Informationen zu verflachen, was ihre Fähigkeit zur Erfassung langfristiger Abhängigkeiten beeinträchtigt. Neuere Arbeiten haben gezeigt, dass Memory Networks (MemNet) den Vorteil besitzen, langfristige Informationen effektiv speichern zu können. Als Decoder wurden sie jedoch bisher noch nicht ausreichend für das Visual Narrating genutzt. Ein Grund hierfür liegt teilweise in der Schwierigkeit der multimodalen sequenziellen Dekodierung mit MemNet. In diesem Artikel stellen wir einen neuartigen Memory-Decoder für das Visual Narrating vor. Konkret entwerfen wir zunächst eine neue Methode zur multimodalen Fusion, um visuelle und lexikalische Informationen vollständig zu integrieren und so eine verbesserte multimodale Repräsentation zu erzielen. Auf Basis dieses Fusionsergebnisses konstruieren wir während des Dekodierprozesses einen auf MemNet basierenden Decoder, der aus mehreren Speicher-Ebenen besteht. Insbesondere speichert jede Ebene einen Speicher-Satz, um frühere Dekodierungsinformationen zu bewahren, und nutzt eine Aufmerksamkeitsmechanik, um adaptiv Informationen auszuwählen, die für die aktuelle Ausgabe relevant sind. Gleichzeitig verwenden wir ebenfalls einen Speicher-Satz, um die Dekodierungsausgabe jeder Speicherebene zum aktuellen Zeitpunkt zu speichern, und nutzen erneut eine Aufmerksamkeitsmechanik, um relevante Informationen auszuwählen. Dadurch wird die Verflachung langfristiger Informationen gemildert. Gleichzeitig nutzt die hierarchische Architektur die latente Information jeder Ebene, was zur Generierung präziser Beschreibungen beiträgt. Experimentelle Ergebnisse auf zwei Aufgaben des Visual Narrating – Video Captioning und Visual Storytelling – zeigen, dass unser Decoder hervorragende Ergebnisse erzielt und die Leistung herkömmlicher RNN-basierter Decoder übertrifft.