Comptage d'objets sans entraînement avec des prompts

Ce document aborde le problème du décompte d'objets dans les images. Les approches existantes reposent sur des données d'entraînement étendues avec des annotations ponctuelles pour chaque objet, ce qui rend la collecte de données fastidieuse et chronophage. Pour surmonter cette difficulté, nous proposons un compteur d'objets sans entraînement qui traite la tâche de décompte comme un problème de segmentation. Notre méthode utilise le modèle Segment Anything Model (SAM), reconnu pour ses masques de haute qualité et sa capacité de segmentation à vue zéro. Cependant, la méthode de génération de masques standard du SAM manque d'informations spécifiques à la classe dans les masques, ce qui entraîne une précision inférieure en matière de décompte. Pour pallier cette limitation, nous introduisons une méthode de génération de masques guidée par des a priori, intégrant trois types d'a priori au processus de segmentation, améliorant ainsi l'efficacité et la précision. De plus, nous traitons le problème du décompte d'objets spécifiés par du texte en proposant une approche en deux étapes combinant la sélection d'un objet de référence et la génération de masques guidée par des a priori. Des expériences approfondies sur des jeux de données standards montrent que notre compteur sans entraînement offre des performances compétitives comparées aux approches basées sur l'apprentissage. Ce document présente une solution prometteuse pour le décompte d'objets dans divers scénarios, sans nécessiter une collecte intensive de données ni un entraînement spécifique au décompte. Le code est disponible à l'adresse \url{https://github.com/shizenglin/training-free-object-counter}.