vor 3 Monaten

UniTR: Ein einheitlicher und effizienter multimodaler Transformer für die Bird’s-Eye-View-Darstellung

Haiyang Wang, Hao Tang, Shaoshuai Shi, Aoxue Li, Zhenguo Li, Bernt Schiele, Liwei Wang

Abstract

Die gemeinsame Verarbeitung von Informationen aus mehreren Sensoren ist entscheidend für eine präzise und robuste Wahrnehmung in zuverlässigen autonomen Fahrsystemen. Derzeit folgt jedoch die Forschung im Bereich der 3D-Wahrnehmung einem modality-spezifischen Paradigma, was zusätzlichen Rechenaufwand verursacht und eine ineffiziente Zusammenarbeit zwischen den verschiedenen Sensor-Daten erschwert. In diesem Paper stellen wir einen effizienten multimodalen Backbone für die Außenraum-3D-Wahrnehmung namens UniTR vor, der eine Vielzahl von Modalitäten mit einheitlicher Modellierung und geteilten Parametern verarbeitet. Im Gegensatz zu früheren Ansätzen führt UniTR einen modality-agnostischen Transformer-Encoder ein, um diese sichtbarkeitsunterschiedlichen Sensor-Daten parallel für eine modality-weise Repräsentationslernung und automatische intermodale Interaktion ohne zusätzliche Fusionschritte zu verarbeiten. Insbesondere stellen wir eine neuartige multimodale Integrationsstrategie vor, die sowohl semantisch reichhaltige 2D-Perspektiven als auch geometriebewusste 3D-sparse Nachbarschaftsbeziehungen berücksichtigt, um die ergänzenden Eigenschaften der verschiedenen Sensortypen optimal auszunutzen. UniTR ist zudem ein grundlegend task-agnostischer Backbone, der natürlicherweise verschiedene 3D-Wahrnehmungsaufgaben unterstützt. Er erreicht eine neue State-of-the-Art-Leistung auf dem nuScenes-Benchmark, wobei die 3D-Objekterkennung um +1,1 NDS und die BEV-Kartensegmentierung um +12,0 mIoU verbessert wird, gleichzeitig jedoch eine geringere Inferenzlatenz aufweist. Der Quellcode wird unter https://github.com/Haiyang-W/UniTR verfügbar sein.