HyperAIHyperAI
vor 2 Monaten

Reflektives Decodier-Netzwerk für Bildunterschriften

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai
Reflektives Decodier-Netzwerk für Bildunterschriften
Abstract

Zustandsderkunst-Methoden für Bildunterschriften konzentrieren sich hauptsächlich auf die Verbesserung visueller Merkmale, während weniger Aufmerksamkeit den inhärenten Eigenschaften der Sprache gewidmet wird, um die Leistungsfähigkeit der Bildunterschriften zu steigern. In dieser Arbeit zeigen wir, dass die Vokabular-Kohärenz zwischen Wörtern und das syntaktische Paradigma von Sätzen ebenfalls wichtig sind, um hochwertige Bildunterschriften zu generieren. Im Einklang mit dem konventionellen Encoder-Decoder-Framework schlagen wir das Reflective Decoding Network (RDN) für Bildunterschriften vor, welches sowohl die Abhängigkeit langfristiger Sequenzen als auch die Positionswahrnehmung von Wörtern im Caption-Decoder verbessert. Unser Modell lernt kooperativ sowohl auf visuellen als auch auf textuellen Merkmalen zu fokussieren und gleichzeitig die relative Position jedes Wortes im Satz wahrzunehmen, um die in der generierten Bildunterschrift übermittelte Information zu maximieren. Wir bewerten die Effektivität unseres RDN anhand der COCO-Bildunterschriftendatensätze und erzielen eine überlegene Leistung im Vergleich zu früheren Methoden. Weitere Experimente zeigen, dass unser Ansatz insbesondere bei schwierigen Fällen mit komplexen Szenen, die durch Bildunterschriften beschrieben werden müssen, vorteilhaft ist.