Lernen der räumlichen Ähnlichkeitsverteilung für Few-Shot-Objekterkennung

Das Ziel des Few-Shot-Objektzählens ist es, die Anzahl der Objekte in einem Abfragebild zu zählen, die derselben Klasse wie die gegebenen Exemplarbilder angehören. Bestehende Methoden berechnen die Ähnlichkeit zwischen dem Abfragebild und den Exemplaren im 2D-Raum und führen eine Regression durch, um die Zählzahl zu ermitteln. Diese Ansätze ignorieren jedoch die reichhaltigen Informationen über die räumliche Verteilung der Ähnlichkeit auf den Exemplarbildern, was sich erheblich auf die Genauigkeit des Matchings auswirkt. Um dieses Problem zu lösen, schlagen wir ein Netzwerk vor, das das Lernen von räumlichen Ähnlichkeitsverteilungen (SSD) für das Few-Shot-Objektzählen ermöglicht. Dieses Netzwerk behält die räumliche Struktur der Exemplarmerkmale bei und berechnet eine punktgenaue 4D-Ähnlichkeitspyramide zwischen den Abfragemerkmals- und Exemplarmerkmalen, wodurch die vollständige Verteilungsinformation für jeden Punkt im 4D-Ähnlichkeitsraum erfasst wird. Wir stellen ein Modul zum Lernen von Ähnlichkeiten (SLM) vor, das effiziente center-pivot 4D-Faltungen auf der Ähnlichkeitspyramide anwendet, um verschiedene Ähnlichkeitsverteilungen verschiedenen vorhergesagten Dichte-Werten zuzuordnen und so eine genaue Zählung zu erreichen. Darüber hinaus führen wir ein Modul zur gegenseitigen Verstärkung von Merkmalen (FCE) ein, das sowohl Abfragemerkmale als auch Exemplarmerkmale gegenseitig verbessert, um die Genauigkeit des Merkmalsmatchings zu erhöhen. Unser Ansatz übertrifft state-of-the-art-Methoden in mehreren Datensätzen, darunter FSC-147 und CARPK. Der Code ist unter https://github.com/CBalance/SSD verfügbar.