HyperAIHyperAI

Command Palette

Search for a command to run...

DenseCap: Fully Convolutional Lokalisierungsnetze für dichtes Beschreiben

Justin Johnson* Andrej Karpathy* Li Fei-Fei

Zusammenfassung

Wir stellen die Aufgabe der dichten Beschriftung (dense captioning) vor, die von einem Computer Vision System sowohl die Lokalisierung als auch die Beschreibung hervorstechender Bereiche in Bildern in natürlicher Sprache verlangt. Die Aufgabe der dichten Beschriftung verallgemeinert die Objekterkennung, wenn die Beschreibungen aus einem einzelnen Wort bestehen, und das Bildbeschriftungsproblem (Image Captioning), wenn ein vorhergesagtes Gebiet das gesamte Bild abdeckt. Um die Lokalisierungs- und Beschreibungsprobleme gemeinsam zu lösen, schlagen wir eine Architektur des Fully Convolutional Localization Networks (FCLN) vor, die ein Bild mit einer einzigen, effizienten Vorwärtsdurchlaufverarbeitung behandelt, keine externen Regionenvorschläge benötigt und von Anfang bis Ende mit einer einzigen Optimierungsrunde trainiert werden kann. Die Architektur besteht aus einem Faltungsnetzwerk (Convolutional Network), einer neuartigen dichten Lokalisierungsschicht und einem rekurrenten neuronalen Netzwerk-Sprachmodell (Recurrent Neural Network language model), das die Etikettensequenzen generiert. Wir evaluieren unser Netzwerk auf dem Visual Genome-Datensatz, der 94.000 Bilder und 4,1 Millionen regionengebundene Beschriftungen umfasst. In beiden Szenarien – Generierung und Retrieval – beobachten wir Geschwindigkeits- und Genauigkeitsverbesserungen im Vergleich zu Baselines, die auf aktuellen Stand der Technik basieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DenseCap: Fully Convolutional Lokalisierungsnetze für dichtes Beschreiben | Paper | HyperAI