HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle N-Gramme aus Webdaten lernen

Ang Li* Allan Jabri Armand Joulin Laurens van der Maaten

Zusammenfassung

Reale Bilderkennungssysteme müssen Tausende von Klassen erkennen, die eine Vielzahl visueller Konzepte darstellen. Der traditionelle Ansatz, pro Klasse Tausende von Bildern für das Training zu annotieren, ist in einem solchen Szenario nicht praktikabel und führt daher zur Verwendung webbasiert überwachter Daten. Dieses Papier untersucht das Training von Bilderkennungssystemen auf großen Mengen von Bildern und zugehörigen Benutzerkommentaren. Insbesondere entwickeln wir visuelle n-Gramm-Modelle, die beliebige Phrasen vorhersagen können, die für den Inhalt eines Bildes relevant sind. Unsere visuellen n-Gramm-Modelle sind feedforward-Faltungsnetzwerke (feed-forward convolutional networks), die mit neuen Verlustfunktionen trainiert werden, die sich an den in der Sprachmodellierung häufig verwendeten n-Gramm-Modellen orientieren. Wir demonstrieren die Vorteile unserer Modelle bei der Phrasenvorhersage, phrasenbasierten Bildsuche, dem Verknüpfen von Bildern und Beschreibungen sowie beim Zero-Shot-Transfer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp