HyperAIHyperAI

Command Palette

Search for a command to run...

DeViSE: Ein tiefes visuell-semantisches Embedding-Modell

Marc'Aurelio Ranzato Jeff Dean Samy Bengio Jon Shlens Greg S. Corrado Andrea Frome Tomas Mikolov

Zusammenfassung

Moderne visuelle Erkennungssysteme sind oft durch ihre begrenzte Skalierbarkeit auf große Anzahlen von Objektkategorien eingeschränkt. Dieser Einschränkung liegt teilweise die zunehmende Schwierigkeit zugrunde, ausreichend Trainingsdaten in Form von beschrifteten Bildern zu beschaffen, je größer die Anzahl der Objektkategorien wird. Eine mögliche Lösung besteht darin, Daten aus anderen Quellen – beispielsweise aus Textdaten – sowohl zur Ausbildung visueller Modelle als auch zur Einschränkung ihrer Vorhersagen zu nutzen. In diesem Artikel präsentieren wir ein neues tiefes visuell-semantisches Embedding-Modell, das darauf trainiert ist, visuelle Objekte sowohl anhand beschrifteter Bilddaten als auch anhand semantischer Informationen zu identifizieren, die aus unannotierten Texten gewonnen wurden. Wir zeigen, dass dieses Modell die Leistungsfähigkeit aktueller State-of-the-Art-Verfahren im ImageNet-Objekterkennungstest mit 1000 Klassen erreicht, gleichzeitig jedoch semantisch plausiblere Fehler macht. Zudem demonstrieren wir, dass die semantische Information genutzt werden kann, um Vorhersagen für Zehntausende von Bildlabels zu treffen, die während des Trainings nicht beobachtet wurden. Die Nutzung semantischer Kenntnisse verbessert solche Zero-Shot-Vorhersagen um bis zu 65 % und erreicht Trefferquoten von bis zu 10 % über Tausende neuartiger, dem visuellen Modell bisher unbekannter Labels hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeViSE: Ein tiefes visuell-semantisches Embedding-Modell | Paper | HyperAI