Neubewertung der räumlichen Invarianz von Faltungsnetzwerken für die Objektzählung

Bisherige Arbeiten gehen im Allgemeinen davon aus, dass die Verbesserung der räumlichen Invarianz von Faltungsnetzwerken der Schlüssel für die Objektzählung ist. Nach der Überprüfung mehrerer etablierter Zählnetzwerke stellten wir jedoch überraschenderweise fest, dass eine zu strenge pixelgenaue räumliche Invarianz zu einer Überanpassung an Rauschen bei der Generierung der Dichtekarte führen kann. In diesem Artikel versuchen wir, die ursprünglichen Faltungsfilter durch lokal verbundene Gauß-Kerne zu ersetzen, um die räumliche Position in der Dichtekarte zu schätzen. Ziel hierbei ist es, den Merkmalsextraktionsprozess so zu gestalten, dass er potenziell die Generierung der Dichtekarte beeinflusst und somit das durch Annotationen verursachte Rauschen überwinden kann. Angelehnt an vorherige Arbeiten schlagen wir eine Niedrigrang-Approximation in Kombination mit translationsinvarianter Struktur vor, um die Approximation der großen Menge an Gauß-Faltungen effizient zu realisieren. Unsere Arbeit eröffnet eine neue Forschungsrichtung, die untersuchen sollte, wie die zu strenge pixelgenaue räumliche Invarianz bei der Objektzählung angemessen entschärft werden kann. Wir evaluieren unsere Methode an vier etablierten Objektzählnetzwerken (nämlich MCNN, CSRNet, SANet und ResNet-50). Umfangreiche Experimente wurden auf sieben gängigen Benchmarks für drei Anwendungen (nämlich Menschenmenge-, Fahrzeug- und Pflanzenzählung) durchgeführt. Die experimentellen Ergebnisse zeigen, dass unsere Methode andere state-of-the-art-Verfahren erheblich übertrifft und eine vielversprechende Lernleistung hinsichtlich der räumlichen Position von Objekten erzielt.