vor 11 Tagen

V2X-ViT: Fahrzeug-zu-Alles kooperative Wahrnehmung mit Vision Transformer

Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma

Abstract

In diesem Paper untersuchen wir die Anwendung von Vehicle-to-Everything (V2X)-Kommunikation zur Verbesserung der Wahrnehmungsleistung autonomer Fahrzeuge. Wir präsentieren einen robusten kooperativen Wahrnehmungsrahmen mit V2X-Kommunikation, der einen neuartigen Vision-Transformer nutzt. Insbesondere entwickeln wir ein ganzheitliches Aufmerksamkeitsmodell, das als V2X-ViT bezeichnet wird, um Informationen effektiv zwischen auf der Straße befindlichen Agenten (d. h. Fahrzeugen und Infrastruktur) zu fusionieren. V2X-ViT besteht aus abwechselnden Schichten von heterogenen Multi-Agenten-Selbstaufmerksamkeit und Multi-Skala-Fenster-Selbstaufmerksamkeit, die sowohl Interaktionen zwischen Agenten als auch räumliche Beziehungen innerhalb einzelner Agenten erfassen. Diese zentralen Module sind in einer einheitlichen Transformer-Architektur integriert, um typische V2X-Herausforderungen wie asynchrone Informationsweitergabe, Positionsfehler und Heterogenität der V2X-Komponenten zu bewältigen. Zur Validierung unseres Ansatzes erstellen wir einen großskaligen V2X-Wahrnehmungsdatensatz mithilfe von CARLA und OpenCDA. Umfangreiche experimentelle Ergebnisse zeigen, dass V2X-ViT neue State-of-the-Art-Leistungen für die 3D-Objekterkennung erzielt und gleichzeitig eine robuste Leistung auch unter extremen, verrauschten Bedingungen aufweist. Der Quellcode ist unter https://github.com/DerrickXuNu/v2x-vit verfügbar.