HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des caractéristiques locales par l'information spatiale pertinente via le Vision Transformer pour le dénombrement de foule

Steven Q.H. Truong Trung Bui Chanh D. Tr. Nguyen Dao Huu Hung Phan Nguyen Soan T. M. Duong Ta Duc Huy Nguyen H. Tran

Résumé

Les variantes du Vision Transformer (ViT) ont démontré des performances de pointe sur de nombreuses benchmarks de vision par ordinateur, y compris le dénombrement de foules. Bien que les modèles basés sur les Transformers aient permis des avancées significatives dans le dénombrement de foules, les méthodes existantes présentent toutefois certaines limitations. Les représentations globales extraites à partir des ViT ne captent pas efficacement les caractéristiques locales fines, ce qui les rend sujettes à des erreurs dans les scènes très saturées, où les tailles et les densités humaines varient fortement. Dans cet article, nous proposons LoViTCrowd, en argumentant que : les caractéristiques locales, enrichies d’informations spatiales provenant de régions pertinentes via le mécanisme d’attention du ViT, peuvent réduire de manière efficace l’erreur de dénombrement de foules. À cette fin, nous divisons chaque image en une grille de cellules. En considérant des patches de 3 × 3 cellules, dans lesquels les parties principales du corps humain sont encapsulées, les cellules environnantes fournissent des indices significatifs pour l’estimation de la foule. Le ViT est adapté à chaque patch afin d’exploiter le mécanisme d’attention sur les 3 × 3 cellules, permettant ainsi de compter le nombre de personnes situées dans la cellule centrale. Le nombre total de personnes dans l’image est obtenu en sommant les comptages des cellules non chevauchantes. Des expériences étendues sur quatre jeux de données publics couvrant des scènes à faible et forte densité — à savoir Mall, ShanghaiTech Part A, ShanghaiTech Part B et UCF-QNRF — démontrent la performance de pointe de notre méthode. Par rapport à TransCrowd, LoViTCrowd réduit respectivement les erreurs quadratiques moyennes (RMSE) et les erreurs absolues moyennes (MAE) de 14,2 % et 9,7 % en moyenne. Le code source est disponible à l’adresse suivante : https://github.com/nguyen1312/LoViTCrowd


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp