HyperAIHyperAI

Command Palette

Search for a command to run...

Tiefe visuelle-semantische Ausrichtungen zur Generierung von Bildbeschreibungen

Andrej Karpathy Li Fei-Fei

Zusammenfassung

Wir präsentieren ein Modell, das natürlichsprachliche Beschreibungen von Bildern und deren Bereichen generiert. Unser Ansatz nutzt Datensätze von Bildern und ihren Satzbeschreibungen, um die intermodalen Korrespondenzen zwischen Sprache und visuellen Daten zu erlernen. Unser Ausrichtungsmodell basiert auf einer neuen Kombination von Faltungsneuronalen Netzen über Bildbereiche, bidirektionalen Rekurrenten Neuronalen Netzen über Sätze und einem strukturierten Zielfunktion, die die beiden Modalitäten durch eine multimodale Einbettung ausrichtt. Anschließend beschreiben wir eine Architektur eines multimodalen Rekurrenten Neuronalen Netzes, das die abgeleiteten Ausrichtungen verwendet, um neue Beschreibungen von Bildbereichen zu erlernen. Wir zeigen, dass unser Ausrichtungsmodell in Retrieval-Experimenten auf den Datensätzen Flickr8K, Flickr30K und MSCOCO erstklassige Ergebnisse liefert. Danach demonstrieren wir, dass die generierten Beschreibungen sowohl bei vollständigen Bildern als auch bei einem neuen Datensatz mit regionalen Annotationen signifikant besser sind als die Baseline-Verfahren für Retrieval.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp