DecideNet: Zählen von Menschenmengen mit variabler Dichte durch aufmerksamkeitsgesteuerte Detektion und Dichteschätzung

In Anwendungen zur Zählung von Menschenmengen in der realen Welt variieren die Dichten der Menschen stark sowohl im räumlichen als auch im zeitlichen Bereich. Eine detektionsbasierte Zählmethode schätzt die Anzahl von Personen in Szenen mit niedriger Dichte genau ab, während ihre Zuverlässigkeit in dicht besiedelten Gebieten nachlässt. Ein regressionsbasierter Ansatz hingegen erfasst die allgemeine Dichtinformation in überfüllten Regionen. Ohne den genauen Standort jeder Person zu kennen, neigt er dazu, die Anzahl in Bereichen mit niedriger Dichte zu überschätzen. Daher ist das ausschließliche Verwenden einer dieser Methoden nicht ausreichend, um alle Arten von Szenen mit unterschiedlichen Dichten zu bewältigen. Um dieses Problem zu lösen, wird ein neues end-to-end-Framework zur Zählung von Menschenmengen vorgeschlagen, das DecideNet (DEteCtIon and Density Estimation Network) genannt wird. Es kann auf Basis der tatsächlichen Dichteverhältnisse an verschiedenen Stellen des Bildes den geeigneten Zählmodus anpassen. DecideNet beginnt damit, die Menschenmenge durch Erstellung getrennter detektions- und regressionsbasierter Dichtekarten zu schätzen. Um unvermeidbare Schwankungen der Dichten zu berücksichtigen, integriert es ein Aufmerksamkeitsmodul, das dazu dient, die Zuverlässigkeit der beiden Schätztypen adaptiv einzuschätzen. Die endgültigen Menschenzählungen werden unter der Leitung des Aufmerksamkeitsmoduls durch die Auswahl geeigneter Schätzungen aus den beiden Arten von Dichtekarten erhalten. Experimentelle Ergebnisse zeigen, dass unsere Methode auf drei anspruchsvollen Datensätzen zur Zählung von Menschenmengen den aktuellen Stand der Technik erreicht.请注意,这里“法语”应该是“德语”,因此我按照德语的标准进行了翻译。希望这能帮助到您!