Comptage d'objets quotidiens dans des scènes familières

Nous nous intéressons au décompte du nombre d'instances de classes d'objets dans des images naturelles et quotidiennes. Les approches précédentes de décompte abordaient ce problème dans des domaines restreints, tels que le décompte de piétons dans les vidéos de surveillance. Les décomptes peuvent également être estimés à partir des résultats d'autres tâches de vision, comme la détection d'objets. Dans cette étude, nous construisons des modèles dédiés au décompte, conçus pour traiter la grande variabilité des nombres, des apparences et des échelles d'objets présents dans les scènes naturelles. Notre approche s'inspire du phénomène de subitisation - la capacité humaine à faire une évaluation rapide du nombre d'objets à partir d'un signal perceptuel, pour de petites valeurs de comptage. Étant donné une scène naturelle, nous utilisons une stratégie de division et de conquête tout en intégrant le contexte à travers toute la scène pour adapter l'idée de subitisation au décompte. Notre méthode offre des améliorations cohérentes par rapport à plusieurs approches basiques pour le décompte sur les ensembles de données PASCAL VOC 2007 et COCO. Par la suite, nous examinons comment le décompte peut être utilisé pour améliorer la détection d'objets. Nous présentons ensuite une application conceptuelle de nos méthodes de décompte à la tâche de Réponse aux Questions Visuelles (Visual Question Answering), en étudiant les questions « combien ? » dans les ensembles de données VQA et COCO-QA.