V2X-AHD : Perception coopérative V2X par réseau de distillation hétérogène asymétrique

La détection d'objets constitue le problème central des systèmes de trafic intelligents, et les progrès récents dans la détection 3D basée sur le lidar pour un seul véhicule indiquent qu’elle peut fournir des informations précises sur la position aux agents intelligents afin de faciliter leurs décisions et leur planification. En comparaison avec la perception à un seul véhicule, la perception coopérative véhicule-route à plusieurs vues présente des avantages fondamentaux, tels que l’élimination des zones mortes et une portée de détection plus étendue, et est devenue un domaine de recherche en vogue. Toutefois, la perception coopérative actuelle se concentre principalement sur l’amélioration de la complexité de la fusion, tout en négligeant les problèmes fondamentaux liés à l’absence de contours dans la vue unique. Afin d’améliorer la capacité d’identification, en particulier la prédiction de la forme du véhicule, nous proposons un système de perception coopérative véhicule-route à plusieurs vues, appelé V2X-AHD (Vehicle-to-Everything Cooperative Perception). Initialement, nous introduisons un réseau de distillation hétérogène asymétrique alimenté par des données d’apprentissage différentes, afin d’améliorer la précision de la reconnaissance des contours, en transférant les caractéristiques enseignantes issues de plusieurs vues vers les caractéristiques étudiantes issues d’une seule vue. Étant donné que les données de nuages de points sont souvent éparses, nous proposons Spara Pillar, un module d’extraction de caractéristiques basé sur une convolution creuse, intégrable en tant que bloc principal, afin de réduire le nombre de paramètres tout en améliorant et en renforçant les capacités d’extraction des caractéristiques. Par ailleurs, nous utilisons une attention auto-attention à plusieurs têtes (MSA) pour fusionner les caractéristiques issues d’une seule vue, et la conception légère de ce module permet une expression fluide des caractéristiques fusionnées. Les résultats obtenus en appliquant notre algorithme au vaste jeu de données ouvert V2Xset démontrent que notre méthode atteint un état de l’art. Selon cette étude, V2X-AHD améliore efficacement la précision de la détection 3D d’objets tout en réduisant le nombre de paramètres du réseau, établissant ainsi une référence pour la perception coopérative. Le code associé à cet article est disponible à l’adresse suivante : https://github.com/feeling0414-lab/V2X-AHD.