Hierarchischer Szenengraph-Encoder-Decoder für Bildparagraphen-Beschreibung
Wenn wir Menschen einen längeren Absatz über ein Bild erzählen, bilden wir通常 zunächst implizit ein mentales „Skript“ und folgen dann diesem, um den Absatz zu generieren. Inspiriert durch dieses Verhalten verleihen wir modernen, auf Encoder-Decoder-Architekturen basierenden Modellen zur Bild-Absatz-Kommentierung diese Fähigkeit, indem wir das hierarchische Szenengraph-Encoder-Decoder-Modell (Hierarchical Scene Graph Encoder-Decoder, HSGED) vorschlagen, um kohärente und einzigartige Absätze zu erzeugen. Insbesondere nutzen wir den Szenengraph des Bildes als „Skript“, um reichhaltige semantische Kenntnisse sowie insbesondere hierarchische Beschränkungen in das Modell einzubinden. Konkret entwerfen wir ein Satz-Szenengraph-RNN (SSG-RNN), um Themen auf Untergraph-Ebene zu generieren, die dann das Wort-Szenengraph-RNN (WSG-RNN) dazu zwingen, entsprechende Sätze zu erzeugen. Wir schlagen eine redundantitätsarme Aufmerksamkeit im SSG-RNN vor, um die Wahrscheinlichkeit zu erhöhen, dass aus selten beschriebenen Untergraphen relevante Themen abstrahiert werden, und integrieren eine Erbschafts-Aufmerksamkeit im WSG-RNN, um präzisere, besser an den Kontext angepasste Sätze mit den abstrahierten Themen zu generieren. Beide Mechanismen tragen dazu bei, einzigartigere Absätze zu erzeugen. Zudem wird eine effiziente Satzebene-Verlustfunktion vorgeschlagen, um die Reihenfolge der generierten Sätze derjenigen der Referenzabsätze anzunähern. Wir validieren HSGED am Stanford-Bild-Absatz-Datensatz und zeigen, dass das Modell nicht nur einen neuen SOTA-Wert von 36,02 CIDEr-D erreicht, sondern auch unter verschiedenen Metriken kohärentere und einzigartigere Absätze generiert.