HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchischer Szenengraph-Encoder-Decoder für Bildparagraphen-Beschreibung

and Jianfei Cai Hanwang Zhang Chongyang Gao Xu Yang

Zusammenfassung

Wenn wir Menschen einen längeren Absatz über ein Bild erzählen, bilden wir通常 zunächst implizit ein mentales „Skript“ und folgen dann diesem, um den Absatz zu generieren. Inspiriert durch dieses Verhalten verleihen wir modernen, auf Encoder-Decoder-Architekturen basierenden Modellen zur Bild-Absatz-Kommentierung diese Fähigkeit, indem wir das hierarchische Szenengraph-Encoder-Decoder-Modell (Hierarchical Scene Graph Encoder-Decoder, HSGED) vorschlagen, um kohärente und einzigartige Absätze zu erzeugen. Insbesondere nutzen wir den Szenengraph des Bildes als „Skript“, um reichhaltige semantische Kenntnisse sowie insbesondere hierarchische Beschränkungen in das Modell einzubinden. Konkret entwerfen wir ein Satz-Szenengraph-RNN (SSG-RNN), um Themen auf Untergraph-Ebene zu generieren, die dann das Wort-Szenengraph-RNN (WSG-RNN) dazu zwingen, entsprechende Sätze zu erzeugen. Wir schlagen eine redundantitätsarme Aufmerksamkeit im SSG-RNN vor, um die Wahrscheinlichkeit zu erhöhen, dass aus selten beschriebenen Untergraphen relevante Themen abstrahiert werden, und integrieren eine Erbschafts-Aufmerksamkeit im WSG-RNN, um präzisere, besser an den Kontext angepasste Sätze mit den abstrahierten Themen zu generieren. Beide Mechanismen tragen dazu bei, einzigartigere Absätze zu erzeugen. Zudem wird eine effiziente Satzebene-Verlustfunktion vorgeschlagen, um die Reihenfolge der generierten Sätze derjenigen der Referenzabsätze anzunähern. Wir validieren HSGED am Stanford-Bild-Absatz-Datensatz und zeigen, dass das Modell nicht nur einen neuen SOTA-Wert von 36,02 CIDEr-D erreicht, sondern auch unter verschiedenen Metriken kohärentere und einzigartigere Absätze generiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hierarchischer Szenengraph-Encoder-Decoder für Bildparagraphen-Beschreibung | Paper | HyperAI