HyperAIHyperAI

Command Palette

Search for a command to run...

Von Bildunterschriften zu visuellen Konzepten und zurück

Hao Fang; Saurabh Gupta; Forrest Iandola; Rupesh Srivastava; Li Deng; Piotr Dollár; Jianfeng Gao; Xiaodong He; Margaret Mitchell; John C. Platt; C. Lawrence Zitnick; Geoffrey Zweig

Zusammenfassung

Dieses Papier stellt einen neuen Ansatz zur automatischen Generierung von Bildbeschreibungen vor: visuelle Detektoren, Sprachmodelle und multimodale Ähnlichkeitsmodelle, die direkt aus einem Datensatz mit Bildunterschriften gelernt wurden. Wir verwenden das Multiple-Instance-Lernen, um visuelle Detektoren für Wörter zu trainieren, die häufig in Bildunterschriften vorkommen, einschließlich verschiedener Wortarten wie Substantive, Verben und Adjektive. Die Ausgaben der Wörter-Detektoren dienen als bedingte Eingaben für ein Maximum-Entropie-Sprachmodell. Das Sprachmodell lernt anhand eines Satzes von über 400.000 Bildbeschreibungen, die Statistik des Wortschatzgebrauchs zu erfassen. Um globale Semantik zu erfassen, sortieren wir Kandidatenunterschriften unter Verwendung von satzlevel-basierten Merkmalen und einem tiefen multimodalen Ähnlichkeitsmodell neu. Unser System erreicht den aktuellen Stand der Technik im offiziellen Microsoft COCO-Benchmark und erzielt einen BLEU-4-Wert von 29,1 %. Bei einer Bewertung durch menschliche Gutachter sind die vom System generierten Bildunterschriften auf unserem Testdatensatz 34 % der Zeit gleichwertig oder besser als solche, die von anderen Personen verfasst wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp