SAVE: Self-Attention auf visuellen Embeddings für zero-shot generisches Objektzählen
{Nizar Bouguila Wassim Bouachir Ahmed Zgaren}
Abstract
Zero-shot Counting ist eine Untergruppe des Generic Visual Object Counting, die darauf abzielt, Objekte einer beliebigen Klasse in einer gegebenen Bildgebung zu zählen. Während beim Few-shot Counting exemplarische Beispiele bereitgestellt werden, um Objekte ähnlicher Klassen zu zählen, automatisiert der Zero-shot Ansatz diesen Prozess zur schnelleren Verarbeitung. In diesem Paper wird ein vollständig automatisierter Zero-shot-Ansatz vorgestellt, der sowohl klassische Zero-shot- als auch Few-shot-Methoden übertrifft. Durch die Ausnutzung von Feature-Maps aus einem vortrainierten, detektionsbasierten Backbone führen wir ein neues Visual Embedding Module ein, das semantische Embeddings innerhalb des objektspezifischen Kontextes generiert. Diese Embeddings werden anschließend einem Self-Attention Matching Module zugeführt, um eine kodiertere Darstellung für den Zählerkopf zu erzeugen. Unser vorgeschlagener Ansatz erreicht auf dem FSC147-Datensatz die besten Ergebnisse im Vergleich zu jüngeren Zero-shot-Methoden, wobei ein mittlerer absoluter Fehler (MAE) von 8,89 und ein mittlerer quadratischer Fehler (RMSE) von 35,83 erzielt werden. Zudem zeigt unsere Methode wettbewerbsfähige Leistung im Vergleich zu Few-shot-Methoden und erweitert die Fähigkeiten des visuellen Objektzählens in verschiedenen industriellen Anwendungen wie der Baumzählung und der Zählung von Wildtiertieren.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| exemplar-free-counting-on-fsc147 | SAVE | MAE(test): 8.92 MAE(val): 8.89 RMSE(test): 80.39 RMSE(val): 35.83 |
| few-shot-object-counting-and-detection-on-1 | SAVE | MAE(test): 8.92 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.