Schaltendes Faltungss neuronales Netzwerk für Menschenzählung

Wir schlagen ein neues Modell zur Menschenzählung vor, das eine gegebene Menschenmenge auf ihre Dichte abbildet. Die Analyse von Menschenmengen wird durch zahlreiche Faktoren erschwert, wie z.B. die Interokklusion zwischen Personen aufgrund extremer Überfüllung, die hohe Ähnlichkeit des Aussehens von Personen und Hintergrundelementen sowie die große Variabilität der Kameraperspektiven. Aktuelle Methoden der Spitzenleistung (state-of-the-art) bewältigen diese Faktoren durch die Verwendung von mehrskaligen CNN-Architekturen, rekurrenten Netzen und später Fusionierung von Merkmalen aus mehrspaltigen CNNs mit unterschiedlichen Rezeptivfeldern. Wir schlagen ein Schalt-CNN-Modell (switching convolutional neural network) vor, das die Variation der Menschenmenge innerhalb eines Bildes nutzt, um die Genauigkeit und Lokalisierung der vorhergesagten Anzahl zu verbessern. Bildausschnitte (Patches) aus einem Gitter in einer Menschenmenge werden an unabhängige CNN-Regressoren weitergeleitet, basierend auf der Qualität der Vorhersage der Menschenanzahl, die während des Trainings ermittelt wurde. Die unabhängigen CNN-Regressoren sind so konzipiert, dass sie unterschiedliche Rezeptivfelder haben, und ein Schaltklassifizierer wird trainiert, um den Bildausschnitt an den besten CNN-Regressor weiterzuleiten. Wir führen umfangreiche Experimente auf allen wichtigen Datensätzen zur Menschenzählung durch und können bessere Leistungen im Vergleich zu aktuellen Methoden der Spitzenleistung nachweisen. Wir liefern interpretierbare Darstellungen des Multichotoms des Raums der Bildausschnitte von Menschenmengenszenen, das vom Schalter abgeleitet wird. Es zeigt sich, dass der Schalter einen Bildausschnitt an eine bestimmte CNN-Spalte weiterleitet, basierend auf der Dichte der Menge.请注意,这里的“Multichotom”是一个较为少见的术语,通常用于描述多分类或多选择的情况。在德语中,这个术语可能并不常用,但为了保持原文的意思,这里保留了该术语并加注了英文原文。