Teilen und Wachsen: Erfassung großer Vielfalt in Menschenmengenbildern mit inkrementell wachsenden CNNs

Die automatische Zählung von Menschen in Bilder von Menschenmengen ist eine herausfordernde Aufgabe. Die Hauptdifficultät resultiert aus der großen Vielfalt, wie Menschen in Mengen erscheinen. Tatsächlich hängen die für die Unterscheidung von Menschenmengen verfügbaren Merkmale stark von der Dichte der Menge ab, so dass Menschen in sehr dichten Szenen nur als Flecken zu sehen sind. Wir lösen dieses Problem mit einem wachsenden CNN (Convolutional Neural Network), das seine Kapazität schrittweise erhöhen kann, um die breite Variabilität in den Bildern von Menschenmengen zu berücksichtigen. Unser Modell startet mit einem Basis-CNN-Dichte-Regressor, der auf allen Arten von Menschenmenenbildern gleichwertig trainiert wird. Um sich an die große Vielfalt anzupassen, erstellen wir zwei Tochter-Regresseure, die exakte Kopien des Basis-CNNs sind. Ein differenzierter Trainingsprozess teilt den Datensatz in zwei Clustern und feinjustiert die Tochternetze auf ihre jeweiligen Spezialgebiete. Somit werden die Tochter-Regresseure ohne manuell erstellte Kriterien zur Bildung von Spezialgebieten zu Experten für bestimmte Arten von Mengen. Die Tochnetze werden rekursiv wieder geteilt, wodurch bei jeder Teilung zwei Experten entstehen. Diese hierarchische Ausbildung führt zu einem CNN-Baum, bei dem die Tochter-Regresseure spezialisierte Experten sind im Vergleich zu ihren Eltern. Die Blattknoten werden als endgültige Experten betrachtet und ein Klassifikator-Netzwerk wird dann trainiert, um das korrekte Spezialgebiet für ein gegebenes Testbildsegment vorherzusagen. Das vorgeschlagene Modell erreicht höhere Zählgenauigkeit auf wichtigen Datensätzen von Menschenmengen. Darüber hinaus analysieren wir die Charakteristika der automatisch ermittelten Spezialgebiete durch unsere Methode.请注意,"Blattknoten" 在计算机科学中通常指代树结构中的叶节点。此外,“Mengen”在上下文中指的是“人群”,而“Spezialgebiet”则用来表示“专门领域”。希望这些细节能帮助您更好地理解翻译。