Faltungs-Autoencoding von Satzthemen für die Generierung von Bildabschnitten

Die Bildabsatzgenerierung ist die Aufgabe, einen kohärenten Bericht (in der Regel ein Absatz) zu erstellen, der den visuellen Inhalt eines Bildes beschreibt. Das Problem ist jedoch nicht trivial, insbesondere wenn mehrere beschreibende und vielfältige Kernpunkte für die Absatzgenerierung berücksichtigt werden müssen, was bei realen Bildern oft vorkommt. Eine berechtigte Frage ist, wie man solche relevanten Kernpunkte/Themen aus einem Bild extrahieren und dann das Bild von einem Thema zum nächsten in einer kohärenten Struktur umfassend beschreiben kann. In dieser Arbeit stellen wir ein neues Design vor – Convolutional Auto-Encoding (CAE), das ausschließlich ein konvolutions- und dekonvolutionsbasiertes Auto-Encoding-Framework für Themenmodellierung auf regionaler Ebene von Bildern verwendet. Darüber hinaus schlagen wir eine Architektur vor, nämlich CAE plus Long Short-Term Memory (kurz CAE-LSTM), die neuartig die gelernten Themen zur Unterstützung der Absatzgenerierung integriert. Technisch gesehen nutzt CAE-LSTM ein zweistufiges LSTM-basiertes Framework für Absatzgenerierung mit Aufmerksamkeitsmechanismus. Der absatzweise LSTM erfasst die zwischen den Sätzen bestehenden Abhängigkeiten in einem Absatz, während der satzweise LSTM einen Satz generiert, der jeweils auf einem gelernten Thema basiert. Umfangreiche Experimente wurden am Stanford-Bildabsatz-Datensatz durchgeführt, und überlegene Ergebnisse wurden im Vergleich zu den bislang besten Ansätzen gemeldet. Bemerkenswerterweise steigert CAE-LSTM die CIDEr-Leistung von 20,93 % auf 25,15 %.