HyperAIHyperAI
vor 2 Monaten

Von Bildunterschriften zu visuellen Konzepten und zurück

Hao Fang; Saurabh Gupta; Forrest Iandola; Rupesh Srivastava; Li Deng; Piotr Dollár; Jianfeng Gao; Xiaodong He; Margaret Mitchell; John C. Platt; C. Lawrence Zitnick; Geoffrey Zweig
Von Bildunterschriften zu visuellen Konzepten und zurück
Abstract

Dieses Papier stellt einen neuen Ansatz zur automatischen Generierung von Bildbeschreibungen vor: visuelle Detektoren, Sprachmodelle und multimodale Ähnlichkeitsmodelle, die direkt aus einem Datensatz mit Bildunterschriften gelernt wurden. Wir verwenden das Multiple-Instance-Lernen, um visuelle Detektoren für Wörter zu trainieren, die häufig in Bildunterschriften vorkommen, einschließlich verschiedener Wortarten wie Substantive, Verben und Adjektive. Die Ausgaben der Wörter-Detektoren dienen als bedingte Eingaben für ein Maximum-Entropie-Sprachmodell. Das Sprachmodell lernt anhand eines Satzes von über 400.000 Bildbeschreibungen, die Statistik des Wortschatzgebrauchs zu erfassen. Um globale Semantik zu erfassen, sortieren wir Kandidatenunterschriften unter Verwendung von satzlevel-basierten Merkmalen und einem tiefen multimodalen Ähnlichkeitsmodell neu. Unser System erreicht den aktuellen Stand der Technik im offiziellen Microsoft COCO-Benchmark und erzielt einen BLEU-4-Wert von 29,1 %. Bei einer Bewertung durch menschliche Gutachter sind die vom System generierten Bildunterschriften auf unserem Testdatensatz 34 % der Zeit gleichwertig oder besser als solche, die von anderen Personen verfasst wurden.