HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung lokaler Merkmale durch relevante räumliche Informationen mittels Vision Transformer für die Menschenzählung

Steven Q.H. Truong Trung Bui Chanh D. Tr. Nguyen Dao Huu Hung Phan Nguyen Soan T. M. Duong Ta Duc Huy Nguyen H. Tran

Zusammenfassung

Vision Transformer (ViT)-Varianten haben in zahlreichen Benchmarks des maschinellen Sehens, einschließlich der Menschenanzahlbestimmung (crowd counting), herausragende Leistungen erbracht. Obwohl Transformer-basierte Modelle in der Menschenanzahlbestimmung bahnbrechende Fortschritte erzielt haben, weisen bestehende Ansätze einige Einschränkungen auf. Globale Embeddings, die aus ViTs extrahiert werden, erfassen feinkörnige lokale Merkmale nicht ausreichend und sind daher anfällig für Fehler in dicht besetzten Szenen mit unterschiedlichen Menschenskalen und Dichten. In diesem Paper stellen wir LoViTCrowd vor, wobei wir argumentieren, dass lokale Merkmale mit räumlicher Information aus relevanten Regionen über die Aufmerksamkeitsmechanismen von ViT die Fehler in der Menschenanzahlbestimmung effektiv reduzieren können. Dazu unterteilen wir jedes Bild in ein Zellenraster. Unter Berücksichtigung von 3×3-Zellen, in denen die Hauptteile des menschlichen Körpers enthalten sind, liefern die umliegenden Zellen aussagekräftige Hinweise für die Schätzung der Menschenanzahl. Für jede solche 3×3-Zellen-Gruppe wird ViT angepasst, um den Aufmerksamkeitsmechanismus über die 3×3-Zellen hinweg einzusetzen und die Anzahl der Personen in der zentralen Zelle zu zählen. Die Gesamtanzahl der Personen im Bild ergibt sich durch Summation der Zählungen aller nicht überlappenden Zellen. Umfassende Experimente auf vier öffentlichen Datensätzen mit dünn- und dicht besetzten Szenen – nämlich Mall, ShanghaiTech Part A, ShanghaiTech Part B und UCF-QNRF – belegen die state-of-the-art-Leistung unserer Methode. Im Vergleich zu TransCrowd reduziert LoViTCrowd die Root Mean Square Errors (RMSE) und die Mean Absolute Errors (MAE) im Durchschnitt um 14,2 % bzw. 9,7 %. Der Quellcode ist unter https://github.com/nguyen1312/LoViTCrowd verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung lokaler Merkmale durch relevante räumliche Informationen mittels Vision Transformer für die Menschenzählung | Paper | HyperAI