HyperAIHyperAI

Command Palette

Search for a command to run...

Semantische generative Augmentierungen für Few-Shot-Zählung

Perla Doubinsky Nicolas Audebert Michel Crucianu Hervé Le Borgne

Zusammenfassung

Mit der Verfügbarkeit leistungsfähiger Text-zu-Bild-Diffusionsmodelle haben kürzliche Arbeiten die Verwendung synthetischer Daten zur Verbesserung der Leistung von Bildklassifikationsmodellen untersucht. Diese Arbeiten zeigen, dass synthetische Daten effektiv zur Datenaugmentation eingesetzt oder sogar reale Daten ersetzen können. In dieser Arbeit untersuchen wir, wie synthetische Daten den Nutzen für die Few-Shot klassenunabhängige Zählung bringen können. Hierfür ist die Generierung von Bildern erforderlich, die einer vorgegebenen Anzahl von Objekten entsprechen. Text-zu-Bild-Modelle haben jedoch Schwierigkeiten, den Begriff „Zahl“ oder „Zählung“ korrekt zu erfassen. Wir schlagen vor, Stable Diffusion doppelt zu konditionieren – sowohl durch einen Prompt als auch durch eine Dichtekarte –, um einen Trainingsdatensatz für die Few-Shot-Zählung zu erweitern. Aufgrund der geringen Größe des Datensatzes neigt das fine-tuned Modell dazu, Bilder zu generieren, die den Trainingsbildern sehr ähnlich sind. Um die Vielfalt der synthetisch generierten Bilder zu erhöhen, schlagen wir vor, die Beschreibungen (Captions) zwischen Bildern auszutauschen, wodurch unerfahrene Konfigurationen aus Objekttypen und räumlichen Anordnungen entstehen. Unsere Experimente zeigen, dass unsere Strategie zur diversifizierten Generierung die Zählgenauigkeit zweier aktueller und leistungsfähiger Few-Shot-Zählmodelle auf den Datensätzen FSC147 und CARPK signifikant verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Semantische generative Augmentierungen für Few-Shot-Zählung | Paper | HyperAI