Illuminer les piétons par détection et segmentation simultanées

La détection des piétons est un problème crucial en vision par ordinateur, avec un impact significatif sur la sécurité de la conduite autonome urbaine. Dans cette étude, nous explorons comment la segmentation sémantique peut être utilisée pour améliorer l'exactitude de la détection des piétons tout en ayant peu ou pas d'impact sur l'efficacité du réseau. Nous proposons un réseau d'infusion de segmentation permettant une supervision conjointe sur la segmentation sémantique et la détection des piétons. Lorsqu'elle est placée correctement, cette supervision supplémentaire aide à guider les caractéristiques dans les couches partagées pour qu'elles deviennent plus sophistiquées et utiles pour le détecteur de piétons en aval. En utilisant cette approche, nous constatons que des boîtes annotées faiblement sont suffisantes pour obtenir des gains de performance notables. Nous fournissons une analyse approfondie pour montrer comment les couches partagées sont façonnées par la supervision de segmentation. Ainsi, nous démontrons que les cartes de caractéristiques résultantes deviennent plus sémantiquement significatives et résistantes aux variations de forme et d'occlusion. Dans l'ensemble, notre cadre de détection et de segmentation simultanées réalise un gain considérable par rapport à l'état de l'art sur le jeu de données Caltech Pedestrian, une performance compétitive sur KITTI, et s'exécute deux fois plus rapidement que les méthodes concurrentes.