HyperAIHyperAI

Command Palette

Search for a command to run...

RefineCap: konzeptbewusste Verfeinerung für Bildbeschreibung

Yekun Chai Shuo Jin Junliang Xing

Zusammenfassung

Die automatische Übersetzung von Bildern in Texte erfordert sowohl die Verständnis von Bildszenerien als auch die Modellierung von Sprache. In diesem Artikel stellen wir ein neuartiges Modell namens RefineCap vor, das das Ausgabewortschatz des Sprachdekodierers mithilfe von durch den Dekoder geleiteten visuellen Semantiken verfeinert und dabei implizit die Zuordnung zwischen visuellen Stichworten und Bildern lernt. Die vorgeschlagene Methode zur visuellen Konzeptverfeinerung ermöglicht es dem Generator, sich auf semantische Details im Bild zu konzentrieren, wodurch präzisere und semantisch reichhaltigere Bildbeschreibungen erzeugt werden können. Unser Modell erreicht im Vergleich zu früheren modellbasierten Ansätzen, die visuelle Konzepte nutzen, eine überlegene Leistung auf dem MS-COCO-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RefineCap: konzeptbewusste Verfeinerung für Bildbeschreibung | Paper | HyperAI