HyperAIHyperAI

Command Palette

Search for a command to run...

Show and Tell: Ein neuronales Bildunterschriftengenerator

Oriol Vinyals; Alexander Toshev; Samy Bengio; Dumitru Erhan

Zusammenfassung

Die automatische Beschreibung des Inhalts eines Bildes ist ein grundlegendes Problem der Künstlichen Intelligenz, das Computer Vision und Natürliche Sprachverarbeitung verbindet. In dieser Arbeit präsentieren wir ein generatives Modell, das auf einer tiefen rekurrenten Architektur basiert und jüngste Fortschritte in den Bereichen Computer Vision und maschinelle Übersetzung kombiniert. Dieses Modell kann verwendet werden, um natürliche Sätze zu erzeugen, die ein Bild beschreiben. Das Modell wird trainiert, um die Wahrscheinlichkeit des Zielbeschreibungsatzes unter Berücksichtigung des Trainingsbildes zu maximieren. Experimente mit mehreren Datensätzen zeigen die Genauigkeit des Modells sowie die Flüssigkeit der von ihm gelernten Sprache, die ausschließlich aus Bildbeschreibungen stammt. Unser Modell ist häufig sehr genau, was wir sowohl qualitativ als auch quantitativ bestätigen. Zum Beispiel beträgt der aktuelle Stand der Technik im BLEU-1-Score (je höher desto besser) für den Pascal-Datensatz 25, während unser Ansatz einen Score von 59 erreicht, vergleichbar mit menschlicher Leistung von etwa 69. Wir zeigen zudem Verbesserungen im BLEU-1-Score für Flickr30k, von 56 auf 66, und für SBU, von 19 auf 28. Schließlich erreichen wir bei dem neu veröffentlichten COCO-Datensatz einen BLEU-4-Score von 27,7, was derzeit den Stand der Technik darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp