Schnelles Zero-Shot Bildtagging

Die bekannten Wortanalogie-Experimente zeigen, dass die aktuellen Wortvektoren feingranulare linguistische Regularitäten in Wörtern durch lineare Vektordifferenzen erfassen. Es ist jedoch unklar, wie gut einfache Vektordifferenzen visuelle Regularitäten über Wörter kodieren können. In dieser Arbeit untersuchen wir eine spezifische Beziehung zwischen Bildern und Wörtern. Unsere Ergebnisse zeigen, dass die Wortvektoren relevanter Tags für ein gegebenes Bild entlang einer Hauptkomponente im Wortvektorraum vor den irrelevanten Tags rangieren. Angeregt durch diese Beobachtung schlagen wir vor, das Bildtagging durch Schätzung der Hauptkomponente für ein Bild zu lösen. Insbesondere nutzen wir lineare Abbildungen und nichtlineare tiefe Neuronale Netze, um die Hauptkomponente aus einem Eingangsbild zu approximieren. Dies führt zu einem sehr vielseitigen Tagging-Modell. Bei der Verarbeitung eines Testbilds arbeitet es schnell und in konstanter Zeit bezüglich der Größe des Trainingsdatensatzes. Es erzielt nicht nur überlegene Leistungen bei der konventionellen Tagging-Aufgabe auf dem NUS-WIDE-Datensatz, sondern übertreffen auch wettbewerbsfähige Baseline-Methoden bei der Annotation von Bildern mit bisher unbekannten Tags.