il y a 16 jours

VLPD : Détection de piétons sensible au contexte par auto-supervision sémantique vision-langage

Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin

Résumé

La détection précise des piétons dans les scènes urbaines est essentielle pour des applications réalistes telles que la conduite autonome ou la surveillance vidéo. Toutefois, des objets ressemblant à des humains entraînent fréquemment des détections erronées, tandis que les piétons de petite taille ou fortement occlus sont facilement manqués en raison de leurs apparences atypiques. Pour relever ces défis, il s’avère insuffisant de se limiter aux régions d’objets seuls ; la question centrale devient alors comment exploiter pleinement des contextes plus explicites et sémantiques. Par ailleurs, les détecteurs de piétons précédemment proposés, sensibles au contexte, apprennent soit uniquement des contextes latents à partir de indices visuels, soit nécessitent des annotations manuelles coûteuses pour obtenir des contextes explicites et sémantiques. Dans ce papier, nous proposons donc une nouvelle approche, nommée VLPD (Vision-Language semantic self-supervision for context-aware Pedestrian Detection), permettant de modéliser explicitement des contextes sémantiques sans aucune annotation supplémentaire. Premièrement, nous introduisons une méthode auto-supervisée de segmentation sémantique Vision-Language (VLS), qui apprend simultanément la détection de piétons entièrement supervisée et la segmentation contextuelle, via des étiquettes explicites de classes sémantiques générées automatiquement par des modèles vision-langage. Ensuite, nous proposons une méthode d’apprentissage contrastif prototypique auto-supervisée (PSC) pour mieux distinguer les piétons des autres catégories, fondée sur des contextes plus explicites et sémantiques extraits par la méthode VLS. Des expériences étendues sur des benchmarks populaires montrent que notre approche VLPD atteint des performances supérieures par rapport aux états de l’art précédents, notamment dans des conditions difficiles telles que les petites tailles ou les occlusions importantes. Le code est disponible à l’adresse suivante : https://github.com/lmy98129/VLPD.