Détection piétonnière multispectrale par détection et segmentation simultanées

La détection piétonne multispectrale a attiré une attention croissante de la communauté scientifique en raison de sa compétence cruciale pour de nombreuses applications 24 heures sur 24 (par exemple, la vidéosurveillance et la conduite autonome), en particulier dans des conditions d'éclairage insuffisantes. Nous avons établi une ligne de base humaine sur le jeu de données KAIST et révélé qu'il existe encore un grand écart entre les détecteurs actuels les plus performants et les performances humaines. Pour réduire cet écart, nous proposons une architecture de fusion de réseaux, qui comprend un réseau de proposition multispectrale pour générer des propositions piétonnes, suivi d'un réseau de classification multispectrale pour distinguer les instances piétonnes des faux positifs difficiles. Le réseau unifié est appris par l'optimisation conjointe des tâches de détection piétonne et de segmentation sémantique. Les détections finales sont obtenues en intégrant les sorties provenant des différentes modalités ainsi que des deux étapes. Cette approche surpasse significativement les méthodes les plus avancées sur le jeu de données KAIST tout en restant rapide. De plus, nous contribuons à une version nettoyée des annotations d'entraînement pour le jeu de données KAIST, et examinons les effets causés par différents types d'erreurs d'annotation. Les recherches futures sur ce problème bénéficieront de cette version nettoyée qui élimine l'interférence des erreurs d'annotation.