Apprendre à Compter Tout

Les travaux existants sur le décompte visuel se concentrent principalement sur une catégorie spécifique à la fois, telle que les personnes, les animaux et les cellules. Dans cet article, nous nous intéressons au décompte de tout, c'est-à-dire au décompte d'objets de toute catégorie en ne disposant que de quelques exemples annotés de cette catégorie. À cette fin, nous formulons le problème du décompte comme une tâche de régression à faible nombre d'exemples (few-shot). Pour aborder cette tâche, nous présentons une méthode novatrice qui prend en entrée une image de requête ainsi qu'un petit nombre d'objets exemplaires provenant de cette image et prédit une carte de densité représentant la présence de tous les objets d'intérêt dans l'image de requête. Nous proposons également une stratégie d'adaptation innovante pour ajuster notre réseau à toute nouvelle catégorie visuelle au moment du test, en utilisant uniquement quelques objets exemplaires de cette nouvelle catégorie. Nous introduisons en outre un ensemble de données comprenant 147 catégories d'objets et plus de 6000 images appropriées pour la tâche de décompte à faible nombre d'exemples (few-shot). Les images sont annotées avec deux types d'annotations : des points et des boîtes englobantes, et peuvent être utilisées pour développer des modèles de décompte à faible nombre d'exemples (few-shot). Les expériences menées sur cet ensemble de données montrent que notre méthode surpasses plusieurs détecteurs d'objets et approches de décompte à faible nombre d'exemples (few-shot) parmi les meilleurs actuellement disponibles. Notre code source et notre ensemble de données sont disponibles à l'adresse suivante : https://github.com/cvlab-stonybrook/LearningToCountEverything.