Objektzählung: Sie müssen nur einen Blick darauf werfen

Diese Arbeit zielt darauf ab, die anspruchsvolle Aufgabe der One-Shot-Objektzählung zu bewältigen. Gegeben ein Bild mit Objekten einer neuartigen, bisher nicht gesehenen Kategorie soll die Anzahl aller Instanzen der gewünschten Kategorie ermittelt werden, wobei lediglich ein einziges unterstützendes Bounding-Box-Beispiel zur Verfügung steht. Hierzu stellen wir ein Zählmodell vor, bei dem lediglich eine Instanz betrachtet werden muss – LaoNet (Look At One instance). Zunächst kombiniert ein Merkmalskorrelationsmodul die Self-Attention- und die Correlative-Attention-Module, um sowohl innere als auch äußere Beziehungen zwischen Objekten zu lernen. Dadurch wird die Robustheit des Netzwerks gegenüber Variationen in Rotation und Größe verschiedener Instanzen gewährleistet. Zweitens wurde ein Skalen-Aggregation-Mechanismus entworfen, um Merkmale mit unterschiedlichen Skaleneigenschaften effektiv zu extrahieren. Im Vergleich zu bestehenden Few-Shot-Zählmethoden erreicht LaoNet state-of-the-art-Ergebnisse bei gleichzeitig hoher Konvergenzgeschwindigkeit. Der Quellcode wird in Kürze verfügbar sein.