HyperAIHyperAI
vor 17 Tagen

Verbesserung lokaler Merkmale durch relevante räumliche Informationen mittels Vision Transformer für die Menschenzählung

{Steven Q.H. Truong, Trung Bui, Chanh D. Tr. Nguyen, Dao Huu Hung, Phan Nguyen, Soan T. M. Duong, Ta Duc Huy, Nguyen H. Tran}
Verbesserung lokaler Merkmale durch relevante räumliche Informationen mittels Vision Transformer für die Menschenzählung
Abstract

Vision Transformer (ViT)-Varianten haben in zahlreichen Benchmarks des maschinellen Sehens, einschließlich der Menschenanzahlbestimmung (crowd counting), herausragende Leistungen erbracht. Obwohl Transformer-basierte Modelle in der Menschenanzahlbestimmung bahnbrechende Fortschritte erzielt haben, weisen bestehende Ansätze einige Einschränkungen auf. Globale Embeddings, die aus ViTs extrahiert werden, erfassen feinkörnige lokale Merkmale nicht ausreichend und sind daher anfällig für Fehler in dicht besetzten Szenen mit unterschiedlichen Menschenskalen und Dichten. In diesem Paper stellen wir LoViTCrowd vor, wobei wir argumentieren, dass lokale Merkmale mit räumlicher Information aus relevanten Regionen über die Aufmerksamkeitsmechanismen von ViT die Fehler in der Menschenanzahlbestimmung effektiv reduzieren können. Dazu unterteilen wir jedes Bild in ein Zellenraster. Unter Berücksichtigung von 3×3-Zellen, in denen die Hauptteile des menschlichen Körpers enthalten sind, liefern die umliegenden Zellen aussagekräftige Hinweise für die Schätzung der Menschenanzahl. Für jede solche 3×3-Zellen-Gruppe wird ViT angepasst, um den Aufmerksamkeitsmechanismus über die 3×3-Zellen hinweg einzusetzen und die Anzahl der Personen in der zentralen Zelle zu zählen. Die Gesamtanzahl der Personen im Bild ergibt sich durch Summation der Zählungen aller nicht überlappenden Zellen. Umfassende Experimente auf vier öffentlichen Datensätzen mit dünn- und dicht besetzten Szenen – nämlich Mall, ShanghaiTech Part A, ShanghaiTech Part B und UCF-QNRF – belegen die state-of-the-art-Leistung unserer Methode. Im Vergleich zu TransCrowd reduziert LoViTCrowd die Root Mean Square Errors (RMSE) und die Mean Absolute Errors (MAE) im Durchschnitt um 14,2 % bzw. 9,7 %. Der Quellcode ist unter https://github.com/nguyen1312/LoViTCrowd verfügbar.