UniTR: Ein einheitlicher und effizienter multimodaler Transformer für die Bird’s-Eye-View-Darstellung

Die gemeinsame Verarbeitung von Informationen aus mehreren Sensoren ist entscheidend für eine präzise und robuste Wahrnehmung in zuverlässigen autonomen Fahrsystemen. Derzeit folgt jedoch die Forschung im Bereich der 3D-Wahrnehmung einem modality-spezifischen Paradigma, was zusätzlichen Rechenaufwand verursacht und eine ineffiziente Zusammenarbeit zwischen den verschiedenen Sensor-Daten erschwert. In diesem Paper stellen wir einen effizienten multimodalen Backbone für die Außenraum-3D-Wahrnehmung namens UniTR vor, der eine Vielzahl von Modalitäten mit einheitlicher Modellierung und geteilten Parametern verarbeitet. Im Gegensatz zu früheren Ansätzen führt UniTR einen modality-agnostischen Transformer-Encoder ein, um diese sichtbarkeitsunterschiedlichen Sensor-Daten parallel für eine modality-weise Repräsentationslernung und automatische intermodale Interaktion ohne zusätzliche Fusionschritte zu verarbeiten. Insbesondere stellen wir eine neuartige multimodale Integrationsstrategie vor, die sowohl semantisch reichhaltige 2D-Perspektiven als auch geometriebewusste 3D-sparse Nachbarschaftsbeziehungen berücksichtigt, um die ergänzenden Eigenschaften der verschiedenen Sensortypen optimal auszunutzen. UniTR ist zudem ein grundlegend task-agnostischer Backbone, der natürlicherweise verschiedene 3D-Wahrnehmungsaufgaben unterstützt. Er erreicht eine neue State-of-the-Art-Leistung auf dem nuScenes-Benchmark, wobei die 3D-Objekterkennung um +1,1 NDS und die BEV-Kartensegmentierung um +12,0 mIoU verbessert wird, gleichzeitig jedoch eine geringere Inferenzlatenz aufweist. Der Quellcode wird unter https://github.com/Haiyang-W/UniTR verfügbar sein.