HyperAIHyperAI
vor 17 Tagen

RefineCap: konzeptbewusste Verfeinerung für Bildbeschreibung

Yekun Chai, Shuo Jin, Junliang Xing
RefineCap: konzeptbewusste Verfeinerung für Bildbeschreibung
Abstract

Die automatische Übersetzung von Bildern in Texte erfordert sowohl die Verständnis von Bildszenerien als auch die Modellierung von Sprache. In diesem Artikel stellen wir ein neuartiges Modell namens RefineCap vor, das das Ausgabewortschatz des Sprachdekodierers mithilfe von durch den Dekoder geleiteten visuellen Semantiken verfeinert und dabei implizit die Zuordnung zwischen visuellen Stichworten und Bildern lernt. Die vorgeschlagene Methode zur visuellen Konzeptverfeinerung ermöglicht es dem Generator, sich auf semantische Details im Bild zu konzentrieren, wodurch präzisere und semantisch reichhaltigere Bildbeschreibungen erzeugt werden können. Unser Modell erreicht im Vergleich zu früheren modellbasierten Ansätzen, die visuelle Konzepte nutzen, eine überlegene Leistung auf dem MS-COCO-Datensatz.