Show and Tell: Ein neuronales Bildunterschriftengenerator

Die automatische Beschreibung des Inhalts eines Bildes ist ein grundlegendes Problem der Künstlichen Intelligenz, das Computer Vision und Natürliche Sprachverarbeitung verbindet. In dieser Arbeit präsentieren wir ein generatives Modell, das auf einer tiefen rekurrenten Architektur basiert und jüngste Fortschritte in den Bereichen Computer Vision und maschinelle Übersetzung kombiniert. Dieses Modell kann verwendet werden, um natürliche Sätze zu erzeugen, die ein Bild beschreiben. Das Modell wird trainiert, um die Wahrscheinlichkeit des Zielbeschreibungsatzes unter Berücksichtigung des Trainingsbildes zu maximieren. Experimente mit mehreren Datensätzen zeigen die Genauigkeit des Modells sowie die Flüssigkeit der von ihm gelernten Sprache, die ausschließlich aus Bildbeschreibungen stammt. Unser Modell ist häufig sehr genau, was wir sowohl qualitativ als auch quantitativ bestätigen. Zum Beispiel beträgt der aktuelle Stand der Technik im BLEU-1-Score (je höher desto besser) für den Pascal-Datensatz 25, während unser Ansatz einen Score von 59 erreicht, vergleichbar mit menschlicher Leistung von etwa 69. Wir zeigen zudem Verbesserungen im BLEU-1-Score für Flickr30k, von 56 auf 66, und für SBU, von 19 auf 28. Schließlich erreichen wir bei dem neu veröffentlichten COCO-Datensatz einen BLEU-4-Score von 27,7, was derzeit den Stand der Technik darstellt.