R-CNN avec prise en compte de l'occlusion : Détection des piétons dans une foule

La détection de piétons dans des scènes bondées est un problème complexe, car les piétons se rassemblent souvent et s'occulent mutuellement. Dans cet article, nous proposons une nouvelle version de R-CNN prenant en compte l'occlusion (OR-CNN) pour améliorer la précision de détection dans les foules. Plus précisément, nous concevons une nouvelle perte d'agrégation afin de rapprocher les propositions et de les localiser de manière compacte autour des objets correspondants. Parallèlement, nous utilisons une nouvelle unité de regroupement d'intérêt prenant en compte l'occlusion partielle (PORoI) pour remplacer la couche de regroupement d'intérêt (RoI), permettant ainsi d'intégrer les informations structurelles a priori du corps humain avec la prédiction de visibilité dans le réseau afin de gérer l'occlusion. Notre détecteur est formé selon une approche bout-à-bout, ce qui lui permet d'obtenir des résultats à l'état de l'art sur trois jeux de données de détection de piétons, à savoir CityPersons, ETH et INRIA, et il performe également au niveau des meilleures méthodes sur le jeu de données Caltech.