Robuste visuelle-semantische Einbettungen erlernen

Viele der bisherigen Methoden zur gemeinsamen Einbettung von Bildern und Text verwenden ausschließlich überwachte Informationen aus gepaarten Bildern und deren textuellen Attributen. Indem wir die jüngsten Erfolge des unüberwachten Lernens in tiefen neuronalen Netzen nutzen, schlagen wir ein end-to-end-Lernframework vor, das in der Lage ist, robustere multimodale Repräsentationen über verschiedene Domänen hinweg zu extrahieren. Die vorgeschlagene Methode kombiniert Repräsentationslernmodelle (z.B. Autoencoder) mit Kriterien für das Lernen über Domänen hinweg (z.B. Maximum Mean Discrepancy-Verlust), um gemeinsame Einbettungen für semantische und visuelle Merkmale zu erlernen. Eine neuartige Technik der Inferenz zur Anpassung an unüberwachte Daten wird eingeführt, um umfassendere Einbettungen sowohl für etikettierte als auch für nicht-etikettierte Daten zu konstruieren. Wir evaluieren unsere Methode auf den Datensätzen Animals with Attributes und Caltech-UCSD Birds 200-2011 mit einer Vielzahl von Anwendungen, darunter zero-shot- und few-shot-Bilderkennung und -retrieval, von induktiven bis zu transduktiven Szenarien. Empirisch zeigen wir, dass unser Framework bei vielen der betrachteten Aufgaben den aktuellen Stand der Forschung verbessert.