R-CNN sensible au comptage et à la similarité pour la détection de piétons

Les méthodes récentes de détection de piétons reposent généralement sur une supervision supplémentaire, telle que des annotations de boîtes englobantes visibles, afin de gérer les occlusions importantes. Nous proposons une approche qui exploite l’information sur le nombre de piétons et la similarité des propositions au sein d’un cadre de détection en deux étapes. À la fois le nombre de piétons et la similarité des propositions sont extraits à partir d’annotations standard de corps entier, couramment utilisées pour entraîner des détecteurs de piétons. Nous introduisons une fonction de perte de détection pondérée par le nombre, qui attribue des poids plus élevés aux erreurs de détection survenant sur des piétons fortement superposés. Cette fonction de perte est utilisée aux deux étapes du détecteur en deux étapes. Nous introduisons également une branche supplémentaire, dédiée au nombre et à la similarité, au sein du cadre de détection en deux étapes, qui prédit à la fois le nombre de piétons et la similarité des propositions. Enfin, nous proposons une stratégie NMS consciente du nombre et de la similarité, permettant d’identifier des propositions distinctes. Notre approche ne nécessite ni informations partielles ni annotations de boîtes englobantes visibles. Des expériences ont été menées sur les jeux de données CityPersons et CrowdHuman. Notre méthode établit un nouveau record sur les deux jeux de données. En outre, elle obtient une amélioration absolue de 2,4 % par rapport à l’état de l’art actuel, en termes de taux de fausses détections moyennes logarithmiques, sur l’ensemble fortement occlu (extbf{HO}) du jeu de test CityPersons. Enfin, nous démontrons la faisabilité de notre approche pour le problème de la segmentation instance humaine. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Leotju/CaSe .