Mélangeurs localisés de caractéristiques sémantiques pour une détection efficace de piétons dans les véhicules autonomes

Les systèmes de conduite autonome s’appuient fortement sur le module de perception sous-jacent, qui doit être à la fois performant et efficace afin de permettre des décisions précises en temps réel. L’évitement des collisions avec les piétons constitue une priorité absolue dans tout système de conduite autonome. Par conséquent, la détection des piétons représente l’un des composants centraux des modules de perception de ces systèmes. Les détecteurs de piétons actuellement les plus avancés présentent deux problèmes majeurs : d’une part, leurs temps d’inférence sont longs, ce qui nuit à l’efficacité globale du module de perception ; d’autre part, leurs performances sont insatisfaisantes dans le cas de piétons de petite taille ou fortement occultés. Nous proposons une nouvelle architecture de détection de piétons, appelée Localized Semantic Feature Mixers (LSFM), de type sans ancres. Elle remplace les réseaux de pyramide de caractéristiques (Feature Pyramid Networks), coûteux en calcul, par un nouveau module appelé Super Pixel Pyramid Pooling, dédié à l’encodage des caractéristiques. En outre, notre réseau de détection dense basé sur MLPMixer, nommé Dense Focal Detection Network, agit comme tête de détection légère, réduisant ainsi l’effort computationnel et le temps d’inférence par rapport aux approches existantes. Pour améliorer les performances de l’architecture proposée, nous adaptons et utilisons une augmentation mixup, qui améliore particulièrement les résultats dans les cas de piétons petits ou fortement occultés. Nous évaluons LSFM par rapport aux états de l’art sur des jeux de données bien établis dédiés aux scènes routières. Le modèle LSFM atteint un niveau d’état de l’art sur les jeux de données Caltech, City Persons, Euro City Persons et TJU-Traffic-Pedestrian, tout en réduisant, en moyenne, le temps d’inférence de 55 %. En outre, LSFM bat pour la première fois dans l’histoire de la détection de piétons la performance de la référence humaine. Enfin, une évaluation croisée entre jeux de données a démontré que notre architecture LSFM généralise efficacement aux données inédites.