VLCounter : Représentation visuelle informée par le texte pour le comptage d'objets en zero-shot

Le comptage d'objets à zéro-shot (ZSOC) vise à dénombrer les instances de classes arbitraires dans une image de requête sans l'aide d'exemples annotés par des humains. Pour faire face au ZSOC, les études précédentes ont proposé un pipeline en deux étapes : la découverte d'exemples et le comptage. Cependant, ce processus en deux étapes conçu de manière séquentielle reste vulnérable à la propagation des erreurs. Dans cette recherche, une méthode de base en une seule étape, appelée Baseline Visuelle-Linguistique (VLBase), est proposée pour explorer l'association implicite des plongements sémantiques-patchs de CLIP. Par la suite, VLBase est étendu pour devenir le Compteur Visuel-Linguistique (VLCounter) grâce à l'intégration de trois modules spécifiquement conçus pour adapter VLBase au comptage d'objets. Premièrement, l'ajustement de prompts conditionné par la sémantique (SPT) est introduit dans le codificateur d'image afin d'obtenir des représentations mettant en évidence les cibles. Deuxièmement, une transformation affine apprenable (LAT) est utilisée pour ajuster la carte de similarité sémantique-patch afin qu'elle soit appropriée pour la tâche de comptage. Enfin, les caractéristiques encodées couche par couche sont transférées au décodeur via une connexion sautée sensible aux segments (SaSC) afin de maintenir la capacité de généralisation pour des classes inconnues. À travers des expériences approfondies sur FSC147, CARPK et PUCPR+, les avantages du cadre end-to-end, VLCounter, sont démontrés.