ADCrowdNet: Ein Aufmerksamkeits-injektiver deformabler Faltungsnetzwerk für die Menschenmengeanalyse

Wir schlagen ein aufmerksamkeitsinjektives deformierbares Faltungsnetzwerk vor, das ADCrowdNet genannt wird und für die Analyse von Menschenmengen entwickelt wurde. Es kann das Problem der Genauigkeitsverluste in stark überfüllten und rauschigen Szenen lösen. ADCrowdNet besteht aus zwei verketteten Netzen. Ein aufmerksamkeitsbewusstes Netzwerk, das als Attention Map Generator (AMG) bezeichnet wird, erkennt zunächst die Bereiche mit Menschenmengen in Bildern und berechnet den Überfüllungsgrad dieser Bereiche. Basierend auf den erkannten Menschenmengenbereichen und den Überfüllungsvorwissen generiert ein mehrskaliges deformierbares Netzwerk, das als Density Map Estimator (DME) bezeichnet wird, hochwertige Dichtekarten. Durch das aufmerksamkeitsbewusste Trainingsverfahren und das mehrskalige deformierbare Faltungsverfahren erreicht das vorgeschlagene ADCrowdNet eine höhere Effektivität bei der Erfassung von Merkmalen von Menschenmengen sowie eine größere Robustheit gegenüber verschiedenen Störungen. Wir haben unsere Methode anhand von vier gängigen Datensätzen zur Zählung von Menschenmengen (ShanghaiTech, UCF_CC_50, WorldEXPO'10 und UCSD) sowie einem zusätzlichen Datensatz zur Zählung von Fahrzeugen (TRANCOS) evaluiert. Unser Ansatz übertrifft die bisher besten Methoden auf allen diesen Datensätzen.