ZeroDiff: Verfestigte visuelle-semantische Korrelation im Zero-Shot-Lernen

Zero-Shot-Lernen (ZSL) zielt darauf ab, Klassifikatoren zu ermöglichen, unbekannte Klassen zu identifizieren. Dies wird in der Regel durch die Generierung visueller Merkmale für unbekannte Klassen erreicht, basierend auf gelernten visuellen-semantischen Korrelationen aus bekannten Klassen. Die meisten aktuellen generativen Ansätze hängen jedoch stark von einer ausreichenden Anzahl von Stichproben aus bekannten Klassen ab. Unsere Studie zeigt, dass eine Knappheit an Stichproben aus bekannten Klassen zu einem deutlichen Leistungsverfall bei vielen generativen ZSL-Techniken führt. Wir argumentieren, quantifizieren und belegen empirisch, dass dieser Verfall weitgehend auf spuriose visuelle-semantische Korrelationen zurückzuführen ist.Um dieses Problem anzugehen, stellen wir ZeroDiff vor, einen innovativen generativen Rahmen für ZSL, der Diffusionsmechanismen und kontrastive Darstellungen einsetzt, um die visuellen-semantischen Korrelationen zu verbessern. ZeroDiff besteht aus drei zentralen Komponenten: (1) Diffusionsverstärkung (Diffusion augmentation), die begrenzte Daten natürlich in eine erweiterte Menge verrauschter Daten transformiert, um das Überfitting von generativen Modellen zu verringern; (2) Supervised-Contrastive (SC)-basierte Darstellungen, die jedes begrenzte Beispiel dynamisch charakterisieren, um die Generierung visueller Merkmale zu unterstützen; und (3) Mehrfach-Merkmalsdiskriminatoren, die einen Wasserstein-Distanz-basierten gegenseitigen Lernansatz verwenden, um generierte Merkmale aus verschiedenen Perspektiven zu bewerten, darunter vordefinierte Semantik, SC-basierte Darstellungen und den Diffusionsprozess.Ausführliche Experimente an drei gängigen ZSL-Benchmarks zeigen nicht nur erhebliche Verbesserungen von ZeroDiff im Vergleich zu bestehenden ZSL-Methoden, sondern auch eine robuste Leistung bei knappen Trainingsdaten. Unser Code ist unter https://github.com/FouriYe/ZeroDiff_ICLR25 verfügbar.