HyperAIHyperAI
il y a 4 mois

Apprentissage de caractéristiques multicouches de canaux pour la détection de piétons

Jiale Cao; Yanwei Pang; Xuelong Li
Apprentissage de caractéristiques multicouches de canaux pour la détection de piétons
Résumé

La détection des piétons basée sur la combinaison de réseaux de neurones convolutifs (CNN) et de caractéristiques traditionnelles conçues manuellement (HOG+LUV) a connu un grand succès. Généralement, HOG+LUV sont utilisés pour générer les propositions candidates, puis le CNN classifie ces propositions. Malgré ce succès, il reste encore des marges d'amélioration. Par exemple, le CNN classe ces propositions en utilisant les caractéristiques de la couche entièrement connectée, tandis que les scores des propositions et les caractéristiques des couches internes du CNN sont ignorés. Dans cet article, nous proposons un cadre unifié appelé Caractéristiques Multicouches Multicanal (MCF) pour surmonter cette limitation. Ce cadre intègre d'abord HOG+LUV à chaque couche du CNN pour former des canaux d'image multicouche. Sur la base de ces canaux d'image multicouche, une cascade multistage AdaBoost est ensuite apprise. Les classifieurs faibles de chaque stade de la cascade multistage sont appris à partir des canaux d'image correspondants à chaque couche. Grâce à des caractéristiques plus abondantes, MCF atteint l'état de l'art sur le jeu de données Caltech piéton (avec un taux d'omission de 10,40 %). En utilisant de nouvelles annotations précises, MCF atteint un taux d'omission de 7,98 %. Comme beaucoup de fenêtres de détection non-piéton peuvent être rapidement rejetées par les premiers stades, cela accélère la vitesse de détection par 1,43 fois. En éliminant les fenêtres de détection fortement chevauchées avec des scores plus faibles après le premier stade, MCF est 4,07 fois plus rapide avec une perte minime de performance.