Ein Low-Shot Objektzählungsnetzwerk mit iterativer Prototypanpassung

Wir betrachten das Low-Shot-Zählen beliebiger semantischer Kategorien in Bildern unter Verwendung nur weniger annotierter Exemplare (Few-Shot) oder keiner Exemplare (Zero-Shot). Der Standard-Few-Shot-Prozess folgt der Extraktion von Erscheinungsabfragen aus den Exemplaren und dem Abgleichen dieser mit Bildmerkmalen, um die Anzahl der Objekte zu bestimmen. Bestehende Methoden extrahieren Abfragen durch Merkmalspooling, was die Forminformationen (z.B. Größe und Seitenverhältnis) vernachlässigt und zu einer verringerten Genauigkeit bei der Objektlokalisation und der Schätzung der Anzahlen führt. Wir schlagen ein Low-Shot-Objektzählungsnetzwerk mit iterativer Prototypenanpassung (LOCA) vor. Unser Hauptbeitrag ist das neu entwickelte Modul zur Extraktion von Objektprototypen, das die Form- und Erscheinungsinformationen der Exemplare iterativ mit den Bildmerkmalen fusioniert. Das Modul kann leicht auf Zero-Shot-Szenarien angepasst werden, wodurch LOCA das gesamte Spektrum von Low-Shot-Zählproblemen abdeckt. LOCA übertrifft alle aktuellen Stand-of-the-Art-Methoden im FSC147-Benchmark um 20-30 % im RMSE bei One-Shot und Few-Shot und erreicht den Stand-of-the-Art in Zero-Shot-Szenarien, während es gleichzeitig bessere Generalisierungsfähigkeiten zeigt.