il y a 16 jours

Vision Transformer Off-the-Shelf : Une Base Étonnante pour le Comptage Peu Échantillonné Indépendant de la Classe

Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu

Résumé

Le comptage agnostique de classes (CAC) vise à compter les objets d'intérêt à partir d'une image de requête, à partir de très peu d'exemplaires. Ce problème est généralement abordé en extrayant séparément les caractéristiques de l’image de requête et des exemplaires, puis en comparant leur similarité, ce qui conduit à un paradigme d’extraction puis correspondance. Dans ce travail, nous montrons qu’il est possible de simplifier le CAC selon une approche d’extraction et correspondance simultanées, notamment en utilisant un modèle Vision Transformer (ViT), où l’extraction de caractéristiques et la correspondance de similarité sont effectuées conjointement au sein de l’attention auto-associative. Nous expliquons la justification de cette simplification à partir d’une perspective décomposée de l’attention auto-associative. Le modèle résultant, nommé CACViT, réduit le pipeline du CAC à un seul modèle ViT préentraîné simple. En outre, afin de compenser la perte d’informations relatives à l’échelle et à l’ordre de grandeur dues au redimensionnement et à la normalisation dans le ViT classique, nous proposons deux stratégies efficaces d’encodage de l’échelle et de l’ordre de grandeur. Des expériences étendues sur les jeux de données FSC147 et CARPK montrent que CACViT surpasses significativement les approches les plus avancées de CAC en termes d’efficacité (réduction de 23,60 % de l’erreur) et de généralisation, ce qui indique que CACViT constitue une base simple mais puissante pour le CAC. Le code sera rendu disponible.