HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste visuelle-semantische Einbettungen erlernen

Yao-Hung Hubert Tsai; Liang-Kang Huang; Ruslan Salakhutdinov

Zusammenfassung

Viele der bisherigen Methoden zur gemeinsamen Einbettung von Bildern und Text verwenden ausschließlich überwachte Informationen aus gepaarten Bildern und deren textuellen Attributen. Indem wir die jüngsten Erfolge des unüberwachten Lernens in tiefen neuronalen Netzen nutzen, schlagen wir ein end-to-end-Lernframework vor, das in der Lage ist, robustere multimodale Repräsentationen über verschiedene Domänen hinweg zu extrahieren. Die vorgeschlagene Methode kombiniert Repräsentationslernmodelle (z.B. Autoencoder) mit Kriterien für das Lernen über Domänen hinweg (z.B. Maximum Mean Discrepancy-Verlust), um gemeinsame Einbettungen für semantische und visuelle Merkmale zu erlernen. Eine neuartige Technik der Inferenz zur Anpassung an unüberwachte Daten wird eingeführt, um umfassendere Einbettungen sowohl für etikettierte als auch für nicht-etikettierte Daten zu konstruieren. Wir evaluieren unsere Methode auf den Datensätzen Animals with Attributes und Caltech-UCSD Birds 200-2011 mit einer Vielzahl von Anwendungen, darunter zero-shot- und few-shot-Bilderkennung und -retrieval, von induktiven bis zu transduktiven Szenarien. Empirisch zeigen wir, dass unser Framework bei vielen der betrachteten Aufgaben den aktuellen Stand der Forschung verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp