Fast R-CNN à Sensibilité aux Échelles pour la Détection de Piétons

Dans cette étude, nous abordons le problème de la détection des piétons dans des scènes naturelles. Intuitivement, les instances de piétons à différentes échelles spatiales peuvent présenter des caractéristiques très différentes. Par conséquent, une grande variabilité dans l'échelle des instances, qui entraîne une variance intra-catégorie indésirable et importante en termes de caractéristiques, peut sérieusement nuire aux performances des méthodes modernes de détection d'instances d'objets. Nous soutenons que ce problème peut être considérablement atténué par la philosophie du "diviser pour régner". En prenant la détection des piétons comme exemple, nous illustrons comment nous pouvons utiliser cette philosophie pour développer un cadre Scale-Aware Fast R-CNN (SAF R-CNN). Le modèle introduit plusieurs sous-réseaux intégrés qui détectent les piétons à partir de plages d'échelles disjointes. Les sorties de tous les sous-réseaux sont ensuite combinées de manière adaptative pour générer les résultats finaux de détection, qui se révèlent robustes face à une grande variabilité dans l'échelle des instances, grâce à une fonction de porte définie sur les tailles des propositions d'objets. Des évaluations approfondies sur plusieurs jeux de données difficiles en détection des piétons montrent clairement l'efficacité du SAF R-CNN proposé. Notamment, notre méthode atteint des performances au niveau de l'état de l'art sur Caltech, INRIA et ETH, et obtient des résultats compétitifs sur KITTI.