DenseCap: Fully Convolutional Lokalisierungsnetze für dichtes Beschreiben

Wir stellen die Aufgabe der dichten Beschriftung (dense captioning) vor, die von einem Computer Vision System sowohl die Lokalisierung als auch die Beschreibung hervorstechender Bereiche in Bildern in natürlicher Sprache verlangt. Die Aufgabe der dichten Beschriftung verallgemeinert die Objekterkennung, wenn die Beschreibungen aus einem einzelnen Wort bestehen, und das Bildbeschriftungsproblem (Image Captioning), wenn ein vorhergesagtes Gebiet das gesamte Bild abdeckt. Um die Lokalisierungs- und Beschreibungsprobleme gemeinsam zu lösen, schlagen wir eine Architektur des Fully Convolutional Localization Networks (FCLN) vor, die ein Bild mit einer einzigen, effizienten Vorwärtsdurchlaufverarbeitung behandelt, keine externen Regionenvorschläge benötigt und von Anfang bis Ende mit einer einzigen Optimierungsrunde trainiert werden kann. Die Architektur besteht aus einem Faltungsnetzwerk (Convolutional Network), einer neuartigen dichten Lokalisierungsschicht und einem rekurrenten neuronalen Netzwerk-Sprachmodell (Recurrent Neural Network language model), das die Etikettensequenzen generiert. Wir evaluieren unser Netzwerk auf dem Visual Genome-Datensatz, der 94.000 Bilder und 4,1 Millionen regionengebundene Beschriftungen umfasst. In beiden Szenarien – Generierung und Retrieval – beobachten wir Geschwindigkeits- und Genauigkeitsverbesserungen im Vergleich zu Baselines, die auf aktuellen Stand der Technik basieren.