Semantisches Diversitätslernen für die zero-shot-Mehrklassen-Klassifizierung

Das Training eines neuronalen Netzwerks zur Erkennung mehrerer Labels, die einem Bild zugeordnet sind, einschließlich der Identifizierung unbekannter Labels, ist eine Herausforderung, insbesondere für Bilder, die zahlreiche semantisch unterschiedliche Labels darstellen. Obwohl diese Aufgabe schwierig ist, ist sie von entscheidender Bedeutung, da sie viele realweltliche Szenarien widerspiegelt, wie zum Beispiel die Bildsuche von natürlichen Bildern. Wir argumentieren, dass das Verwenden eines einzelnen Einbettungsvektors zur Darstellung eines Bildes, wie es üblich ist, nicht ausreichend ist, um sowohl relevante bekannte als auch unbekannte Labels korrekt zu bewerten. Diese Studie stellt ein end-to-end-Training für Multi-Label-Zero-Shot-Learning vor, das die semantische Vielfalt von Bildern und Labels unterstützt. Wir schlagen vor, eine Einbettungsmatrix mit Haupt-Einbettungsvektoren zu verwenden, die mit einer angepassten Verlustfunktion trainiert werden. Zudem schlagen wir während des Trainings vor, die Gewichtung von Bildproben in der Verlustfunktion zu erhöhen, die eine höhere semantische Vielfalt aufweisen, um die Vielfalt der Einbettungsmatrix zu fördern. Umfangreiche Experimente zeigen, dass unser vorgeschlagener Ansatz die Qualität des Zero-Shot-Modells bei der tagbasierten Bildsuche verbessert und state-of-the-art-Ergebnisse auf mehreren gängigen Datensätzen (NUS-Wide, COCO, Open Images) erzielt.