HyperAIHyperAI

Command Palette

Search for a command to run...

Reflektives Decodier-Netzwerk für Bildunterschriften

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai

Zusammenfassung

Zustandsderkunst-Methoden für Bildunterschriften konzentrieren sich hauptsächlich auf die Verbesserung visueller Merkmale, während weniger Aufmerksamkeit den inhärenten Eigenschaften der Sprache gewidmet wird, um die Leistungsfähigkeit der Bildunterschriften zu steigern. In dieser Arbeit zeigen wir, dass die Vokabular-Kohärenz zwischen Wörtern und das syntaktische Paradigma von Sätzen ebenfalls wichtig sind, um hochwertige Bildunterschriften zu generieren. Im Einklang mit dem konventionellen Encoder-Decoder-Framework schlagen wir das Reflective Decoding Network (RDN) für Bildunterschriften vor, welches sowohl die Abhängigkeit langfristiger Sequenzen als auch die Positionswahrnehmung von Wörtern im Caption-Decoder verbessert. Unser Modell lernt kooperativ sowohl auf visuellen als auch auf textuellen Merkmalen zu fokussieren und gleichzeitig die relative Position jedes Wortes im Satz wahrzunehmen, um die in der generierten Bildunterschrift übermittelte Information zu maximieren. Wir bewerten die Effektivität unseres RDN anhand der COCO-Bildunterschriftendatensätze und erzielen eine überlegene Leistung im Vergleich zu früheren Methoden. Weitere Experimente zeigen, dass unser Ansatz insbesondere bei schwierigen Fällen mit komplexen Szenen, die durch Bildunterschriften beschrieben werden müssen, vorteilhaft ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp