Command Palette
Search for a command to run...
Fast Zero-Shot-Bildmarkierung
Fast Zero-Shot-Bildmarkierung
Zhang Yang Gong Boqing Shah Mubarak
Zusammenfassung
Bekannte Wort-Analogie-Experimente zeigen, dass neuere Wortvektoren feinkörnige sprachliche Regelmäßigkeiten in Wörtern durch lineare Vektorverschiebungen erfassen können. Unklar ist jedoch, inwieweit einfache Vektorverschiebungen visuelle Regelmäßigkeiten über Wörter erfassen können. In dieser Arbeit untersuchen wir eine spezifische Beziehung zwischen Bildern und Wörtern, nämlich die Relevanz von Tags für ein gegebenes Bild. Unsere Ergebnisse zeigen, dass die Wortvektoren relevanter Tags für ein bestimmtes Bild entlang einer Hauptrichtung im Wortvektorraum vor den Vektoren irrelevanter Tags rangieren. Inspiriert durch diese Beobachtung schlagen wir vor, das Problem des Bild-Tags-Assignments durch Schätzung der Hauptrichtung für ein Bild zu lösen. Insbesondere nutzen wir lineare Abbildungen sowie nichtlineare tiefe neuronale Netze, um die Hauptrichtung aus einem Eingabebild zu approximieren. Dadurch erhalten wir ein äußerst vielseitiges Tagging-Modell, das bei der Verarbeitung eines Testbildes sehr schnell arbeitet und eine konstante Laufzeit bezüglich der Größe des Trainingsdatensatzes aufweist. Das Modell erzielt nicht nur überlegene Ergebnisse bei der klassischen Tagging-Aufgabe auf dem NUS-WIDE-Datensatz, sondern übertrifft auch konkurrierende Ansätze bei der Annotation von Bildern mit bisher nicht gesehenen Tags.