il y a 11 jours

V2X-ViT : Perception coopérative V2X basée sur le Vision Transformer

Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma

Résumé

Dans cet article, nous étudions l’application de la communication Vehicle-to-Everything (V2X) afin d’améliorer les performances de perception des véhicules autonomes. Nous proposons un cadre coopératif de perception robuste basé sur la communication V2X, utilisant un nouveau modèle de vision Transformer. Plus précisément, nous avons conçu un modèle d’attention holistique, nommé V2X-ViT, permettant de fusionner efficacement les informations provenant des agents présents sur la route (c’est-à-dire les véhicules et les infrastructures). V2X-ViT se compose de couches alternées d’attention auto-associative multi-agents hétérogènes et d’attention auto-associative à fenêtres multi-échelles, permettant de capturer à la fois les interactions entre agents et les relations spatiales propres à chaque agent. Ces modules clés sont intégrés dans une architecture Transformer unifiée, conçue pour faire face aux défis courants liés à la communication V2X, tels que le partage d’informations asynchrone, les erreurs de pose et l’hétérogénéité des composants V2X. Pour valider notre approche, nous avons construit un grand jeu de données de perception V2X à l’aide de CARLA et d’OpenCDA. Les résultats expérimentaux étendus démontrent que V2X-ViT établit un nouveau record d’état de l’art pour la détection 3D d’objets, tout en offrant une performance robuste même dans des environnements difficiles et bruyants. Le code source est disponible à l’adresse suivante : https://github.com/DerrickXuNu/v2x-vit.