Ein tiefes Einbettungsmodell für Zero-Shot-Lernen erlernen

Zero-Shot-Lernmodelle (ZSL) basieren auf dem Lernen eines gemeinsamen Einbettungsraums, in den sowohl textuelle/semantische Beschreibungen von Objektklassen als auch visuelle Darstellungen von Objektbildern projiziert werden können, um eine Nachbarschaftssuche durchzuführen. Trotz des Erfolgs tiefer neuronaler Netze, die ein End-to-End-Modell zwischen Text und Bildern für andere visuelle Aufgaben wie das Bildunterschriftenerstellen lernen, existieren sehr wenige tiefe ZSL-Modelle, und diese zeigen nur geringe Vorteile gegenüber ZSL-Modellen, die tiefere Merkmalsrepräsentationen nutzen, aber kein End-to-End-Einbettungsmodell lernen. In dieser Arbeit argumentieren wir, dass der Schlüssel zum Erfolg tiefer ZSL-Modelle darin besteht, den richtigen Einbettungsraum zu wählen. Anstatt in einen semantischen Raum oder einen Zwischendraum einzubetten, schlagen wir vor, den visuellen Raum als Einbettungsraum zu verwenden. Dies liegt daran, dass in diesem Raum die nachfolgende Nachbarschaftssuche weniger unter dem Hubness-Problem leidet und somit effektiver wird. Diese Modellauslegung bietet außerdem einen natürlichen Mechanismus zur Fusions und gemeinsamen Optimierung mehrerer semantischer Modalitäten (z.B., Attribute und Satzbeschreibungen) in einem End-to-End-Ansatz. Ausführliche Experimente auf vier Benchmarks zeigen, dass unser Modell die bestehenden Modelle erheblich übertrifft. Der Quellcode ist unter https://github.com/lzrobots/DeepEmbeddingModel_ZSL verfügbar.