DeViSE: Ein tiefes visuell-semantisches Embedding-Modell

Moderne visuelle Erkennungssysteme sind oft durch ihre begrenzte Skalierbarkeit auf große Anzahlen von Objektkategorien eingeschränkt. Dieser Einschränkung liegt teilweise die zunehmende Schwierigkeit zugrunde, ausreichend Trainingsdaten in Form von beschrifteten Bildern zu beschaffen, je größer die Anzahl der Objektkategorien wird. Eine mögliche Lösung besteht darin, Daten aus anderen Quellen – beispielsweise aus Textdaten – sowohl zur Ausbildung visueller Modelle als auch zur Einschränkung ihrer Vorhersagen zu nutzen. In diesem Artikel präsentieren wir ein neues tiefes visuell-semantisches Embedding-Modell, das darauf trainiert ist, visuelle Objekte sowohl anhand beschrifteter Bilddaten als auch anhand semantischer Informationen zu identifizieren, die aus unannotierten Texten gewonnen wurden. Wir zeigen, dass dieses Modell die Leistungsfähigkeit aktueller State-of-the-Art-Verfahren im ImageNet-Objekterkennungstest mit 1000 Klassen erreicht, gleichzeitig jedoch semantisch plausiblere Fehler macht. Zudem demonstrieren wir, dass die semantische Information genutzt werden kann, um Vorhersagen für Zehntausende von Bildlabels zu treffen, die während des Trainings nicht beobachtet wurden. Die Nutzung semantischer Kenntnisse verbessert solche Zero-Shot-Vorhersagen um bis zu 65 % und erreicht Trefferquoten von bis zu 10 % über Tausende neuartiger, dem visuellen Modell bisher unbekannter Labels hinweg.