HyperAIHyperAI
il y a 16 jours

CLIP-EBC : CLIP peut compter avec précision grâce à une classification par blocs améliorée

Yiming Ma, Victor Sanchez, Tanaya Guha
CLIP-EBC : CLIP peut compter avec précision grâce à une classification par blocs améliorée
Résumé

Nous proposons CLIP-EBC, le premier modèle entièrement fondé sur CLIP pour une estimation précise de la densité de foule. Bien que le modèle CLIP ait démontré un succès remarquable dans des tâches de reconnaissance telles que la classification d’images en mode zero-shot, son potentiel pour la comptabilisation reste largement inexploré en raison des défis inhérents à la transformation d’un problème de régression, comme le comptage, en une tâche de reconnaissance. Dans ce travail, nous explorons et améliorons la capacité de CLIP à compter, en nous concentrant spécifiquement sur l’estimation de la taille des foules à partir d’images. Les cadres existants de comptage basés sur la classification présentent des limites importantes, notamment la quantification des valeurs de comptage en intervalles à valeurs réelles voisins, ainsi que la focalisation exclusive sur les erreurs de classification. Ces pratiques entraînent une ambiguïté des étiquettes aux frontières communes entre intervalles et une prédiction inexacte des valeurs de comptage. Par conséquent, l’application directe de CLIP dans ces cadres peut conduire à des performances sous-optimales.Pour surmonter ces défis, nous proposons tout d’abord le cadre d’Évaluation par Blocs Améliorée (EBC). Contrairement aux méthodes antérieures, EBC utilise des intervalles à valeurs entières, réduisant efficacement l’ambiguïté aux frontières des intervalles. En outre, il intègre une fonction de perte de régression basée sur des cartes de densité afin d’améliorer la prédiction des valeurs de comptage. Dans le cadre EBC indépendant du modèle de base, nous introduisons ensuite CLIP-EBC afin d’exploiter pleinement les capacités de reconnaissance de CLIP pour cette tâche. Des expériences étendues démontrent l’efficacité du cadre EBC ainsi que la performance compétitive de CLIP-EBC. Plus précisément, notre cadre EBC permet d’améliorer les méthodes existantes basées sur la classification jusqu’à 44,5 % sur le jeu de données UCF-QNRF, tandis que CLIP-EBC atteint une performance de pointe sur le jeu de test NWPU-Crowd, avec une erreur absolue moyenne (MAE) de 58,2 et une racine de l’erreur quadratique moyenne (RMSE) de 268,5, soit une amélioration de 8,6 % et 13,3 % respectivement par rapport à la meilleure méthode précédente, STEERER. Le code et les poids sont disponibles à l’adresse suivante : https://github.com/Yiming-M/CLIP-EBC.