HyperAIHyperAI

Command Palette

Search for a command to run...

Fast Zero-Shot-Bildmarkierung

Zhang Yang Gong Boqing Shah Mubarak

Zusammenfassung

Bekannte Wort-Analogie-Experimente zeigen, dass neuere Wortvektoren feinkörnige sprachliche Regelmäßigkeiten in Wörtern durch lineare Vektorverschiebungen erfassen können. Unklar ist jedoch, inwieweit einfache Vektorverschiebungen visuelle Regelmäßigkeiten über Wörter erfassen können. In dieser Arbeit untersuchen wir eine spezifische Beziehung zwischen Bildern und Wörtern, nämlich die Relevanz von Tags für ein gegebenes Bild. Unsere Ergebnisse zeigen, dass die Wortvektoren relevanter Tags für ein bestimmtes Bild entlang einer Hauptrichtung im Wortvektorraum vor den Vektoren irrelevanter Tags rangieren. Inspiriert durch diese Beobachtung schlagen wir vor, das Problem des Bild-Tags-Assignments durch Schätzung der Hauptrichtung für ein Bild zu lösen. Insbesondere nutzen wir lineare Abbildungen sowie nichtlineare tiefe neuronale Netze, um die Hauptrichtung aus einem Eingabebild zu approximieren. Dadurch erhalten wir ein äußerst vielseitiges Tagging-Modell, das bei der Verarbeitung eines Testbildes sehr schnell arbeitet und eine konstante Laufzeit bezüglich der Größe des Trainingsdatensatzes aufweist. Das Modell erzielt nicht nur überlegene Ergebnisse bei der klassischen Tagging-Aufgabe auf dem NUS-WIDE-Datensatz, sondern übertrifft auch konkurrierende Ansätze bei der Annotation von Bildern mit bisher nicht gesehenen Tags.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp