Vom offenen zum abgeschlossenen Satz: Zählen von Objekten durch räumliche Teile-und-Herrsche-Methode

Visuelles Zählen, eine Aufgabe, die die Anzahl von Objekten in einem Bild oder Video vorhersagt, ist von Natur aus ein offenes Problem, d. h., die Population kann theoretisch in $[0,+\infty)$ variieren. In der Praxis sind jedoch die gesammelten Bilder und die annotierten Zahlenwerte begrenzt, was bedeutet, dass nur eine kleine abgeschlossene Menge beobachtet wird. Bestehende Methoden modellieren diese Aufgabe in der Regel als Regressionsproblem; sie leiden jedoch wahrscheinlich unter unbekannten Szenen mit Zahlen außerhalb des Bereichs der abgeschlossenen Menge. Tatsächlich ist das Zählen zerlegbar. Ein dichtes Gebiet kann immer weiter unterteilt werden, bis die Zahlen der Unterbereiche innerhalb der zuvor beobachteten abgeschlossenen Menge liegen. Inspiriert durch diese Idee schlagen wir einen einfachen aber effektiven Ansatz vor: das räumliche Teile-und-Herrsche-Netzwerk (S-DCNet). S-DCNet lernt nur von einer abgeschlossenen Menge, kann aber durch S-DC gut auf offene Szenarien verallgemeinert werden. S-DCNet ist auch effizient. Um die wiederholte Berechnung von Faltungseigenschaften für Unterbereiche zu vermeiden, wird S-DC auf der Merkmalskarte und nicht auf dem Eingangsbild ausgeführt. S-DCNet erzielt den aktuellen Stand der Technik in drei Menschenzähl-Datensätzen (ShanghaiTech, UCF_CC_50 und UCF-QNRF), einem Fahrzeugzähl-Datensatz (TRANCOS) und einem Pflanzenzähl-Datensatz (MTC). Im Vergleich zu den bisher besten Methoden bringt S-DCNet eine relative Verbesserung von 20,2 % im ShanghaiTech Teil B, 20,9 % im UCF-QNRF, 22,5 % im TRANCOS und 15,1 % im MTC. Der Quellcode ist unter folgender URL verfügbar: https://github.com/xhp-hust-2018-2011/S-DCNet.