Détection améliorée par le contexte temporel des piétons fortement occultés

Les détecteurs de piétons de pointe ont montré des performances prometteuses sur des piétons non occlus, mais ils sont encore confrontés à des occlusions importantes. Bien que de nombreuses études antérieures aient tenté de réduire le problème de l’occlusion des piétons, la plupart se fondent sur des images statiques. Dans cet article, nous exploitons le contexte temporel local des piétons dans les vidéos et proposons un réseau d’agrégation de caractéristiques en tube (TFAN) visant à renforcer la détection des piétons en cas d’occlusions sévères. Plus précisément, pour un piéton occlu dans le cadre actuel, nous cherchons itérativement ses correspondants pertinents le long de l’axe temporel afin de former un tube. Ensuite, les caractéristiques issues de ce tube sont agrégées selon un poids adaptatif afin d’améliorer la représentation des caractéristiques du piéton occlu. En outre, nous avons conçu un module d’encodage temporellement discriminant (TDEM) et un module de relation basé sur les parties (PRM), qui permettent à notre approche de mieux gérer le décalage du tube et les occlusions lourdes. Des expériences étendues ont été menées sur trois jeux de données — Caltech, NightOwls et KAIST — démontrant que la méthode proposée est particulièrement efficace pour la détection des piétons fortement occlus. En outre, nous atteignons des performances de pointe sur les jeux de données Caltech et NightOwls.