HyperAIHyperAI
il y a 17 jours

Amélioration des caractéristiques locales par l'information spatiale pertinente via le Vision Transformer pour le dénombrement de foule

{Steven Q.H. Truong, Trung Bui, Chanh D. Tr. Nguyen, Dao Huu Hung, Phan Nguyen, Soan T. M. Duong, Ta Duc Huy, Nguyen H. Tran}
Amélioration des caractéristiques locales par l'information spatiale pertinente via le Vision Transformer pour le dénombrement de foule
Résumé

Les variantes du Vision Transformer (ViT) ont démontré des performances de pointe sur de nombreuses benchmarks de vision par ordinateur, y compris le dénombrement de foules. Bien que les modèles basés sur les Transformers aient permis des avancées significatives dans le dénombrement de foules, les méthodes existantes présentent toutefois certaines limitations. Les représentations globales extraites à partir des ViT ne captent pas efficacement les caractéristiques locales fines, ce qui les rend sujettes à des erreurs dans les scènes très saturées, où les tailles et les densités humaines varient fortement. Dans cet article, nous proposons LoViTCrowd, en argumentant que : les caractéristiques locales, enrichies d’informations spatiales provenant de régions pertinentes via le mécanisme d’attention du ViT, peuvent réduire de manière efficace l’erreur de dénombrement de foules. À cette fin, nous divisons chaque image en une grille de cellules. En considérant des patches de 3 × 3 cellules, dans lesquels les parties principales du corps humain sont encapsulées, les cellules environnantes fournissent des indices significatifs pour l’estimation de la foule. Le ViT est adapté à chaque patch afin d’exploiter le mécanisme d’attention sur les 3 × 3 cellules, permettant ainsi de compter le nombre de personnes situées dans la cellule centrale. Le nombre total de personnes dans l’image est obtenu en sommant les comptages des cellules non chevauchantes. Des expériences étendues sur quatre jeux de données publics couvrant des scènes à faible et forte densité — à savoir Mall, ShanghaiTech Part A, ShanghaiTech Part B et UCF-QNRF — démontrent la performance de pointe de notre méthode. Par rapport à TransCrowd, LoViTCrowd réduit respectivement les erreurs quadratiques moyennes (RMSE) et les erreurs absolues moyennes (MAE) de 14,2 % et 9,7 % en moyenne. Le code source est disponible à l’adresse suivante : https://github.com/nguyen1312/LoViTCrowd