vor 11 Tagen

Semantische generative Augmentierungen für Few-Shot-Zählung

Perla Doubinsky, Nicolas Audebert, Michel Crucianu, Hervé Le Borgne

Abstract

Mit der Verfügbarkeit leistungsfähiger Text-zu-Bild-Diffusionsmodelle haben kürzliche Arbeiten die Verwendung synthetischer Daten zur Verbesserung der Leistung von Bildklassifikationsmodellen untersucht. Diese Arbeiten zeigen, dass synthetische Daten effektiv zur Datenaugmentation eingesetzt oder sogar reale Daten ersetzen können. In dieser Arbeit untersuchen wir, wie synthetische Daten den Nutzen für die Few-Shot klassenunabhängige Zählung bringen können. Hierfür ist die Generierung von Bildern erforderlich, die einer vorgegebenen Anzahl von Objekten entsprechen. Text-zu-Bild-Modelle haben jedoch Schwierigkeiten, den Begriff „Zahl“ oder „Zählung“ korrekt zu erfassen. Wir schlagen vor, Stable Diffusion doppelt zu konditionieren – sowohl durch einen Prompt als auch durch eine Dichtekarte –, um einen Trainingsdatensatz für die Few-Shot-Zählung zu erweitern. Aufgrund der geringen Größe des Datensatzes neigt das fine-tuned Modell dazu, Bilder zu generieren, die den Trainingsbildern sehr ähnlich sind. Um die Vielfalt der synthetisch generierten Bilder zu erhöhen, schlagen wir vor, die Beschreibungen (Captions) zwischen Bildern auszutauschen, wodurch unerfahrene Konfigurationen aus Objekttypen und räumlichen Anordnungen entstehen. Unsere Experimente zeigen, dass unsere Strategie zur diversifizierten Generierung die Zählgenauigkeit zweier aktueller und leistungsfähiger Few-Shot-Zählmodelle auf den Datensätzen FSC147 und CARPK signifikant verbessert.