vor 2 Monaten

Visuelle N-Gramme aus Webdaten lernen

Ang Li; Allan Jabri; Armand Joulin; Laurens van der Maaten

Abstract

Reale Bilderkennungssysteme müssen Tausende von Klassen erkennen, die eine Vielzahl visueller Konzepte darstellen. Der traditionelle Ansatz, pro Klasse Tausende von Bildern für das Training zu annotieren, ist in einem solchen Szenario nicht praktikabel und führt daher zur Verwendung webbasiert überwachter Daten. Dieses Papier untersucht das Training von Bilderkennungssystemen auf großen Mengen von Bildern und zugehörigen Benutzerkommentaren. Insbesondere entwickeln wir visuelle n-Gramm-Modelle, die beliebige Phrasen vorhersagen können, die für den Inhalt eines Bildes relevant sind. Unsere visuellen n-Gramm-Modelle sind feedforward-Faltungsnetzwerke (feed-forward convolutional networks), die mit neuen Verlustfunktionen trainiert werden, die sich an den in der Sprachmodellierung häufig verwendeten n-Gramm-Modellen orientieren. Wir demonstrieren die Vorteile unserer Modelle bei der Phrasenvorhersage, phrasenbasierten Bildsuche, dem Verknüpfen von Bildern und Beschreibungen sowie beim Zero-Shot-Transfer.