HyperAIHyperAI

Command Palette

Search for a command to run...

UniTR: Ein einheitlicher und effizienter multimodaler Transformer für die Bird’s-Eye-View-Darstellung

Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang

Zusammenfassung

Die gemeinsame Verarbeitung von Informationen aus mehreren Sensoren ist entscheidend für eine präzise und robuste Wahrnehmung in zuverlässigen autonomen Fahrsystemen. Derzeit folgt jedoch die Forschung im Bereich der 3D-Wahrnehmung einem modality-spezifischen Paradigma, was zusätzlichen Rechenaufwand verursacht und eine ineffiziente Zusammenarbeit zwischen den verschiedenen Sensor-Daten erschwert. In diesem Paper stellen wir einen effizienten multimodalen Backbone für die Außenraum-3D-Wahrnehmung namens UniTR vor, der eine Vielzahl von Modalitäten mit einheitlicher Modellierung und geteilten Parametern verarbeitet. Im Gegensatz zu früheren Ansätzen führt UniTR einen modality-agnostischen Transformer-Encoder ein, um diese sichtbarkeitsunterschiedlichen Sensor-Daten parallel für eine modality-weise Repräsentationslernung und automatische intermodale Interaktion ohne zusätzliche Fusionschritte zu verarbeiten. Insbesondere stellen wir eine neuartige multimodale Integrationsstrategie vor, die sowohl semantisch reichhaltige 2D-Perspektiven als auch geometriebewusste 3D-sparse Nachbarschaftsbeziehungen berücksichtigt, um die ergänzenden Eigenschaften der verschiedenen Sensortypen optimal auszunutzen. UniTR ist zudem ein grundlegend task-agnostischer Backbone, der natürlicherweise verschiedene 3D-Wahrnehmungsaufgaben unterstützt. Er erreicht eine neue State-of-the-Art-Leistung auf dem nuScenes-Benchmark, wobei die 3D-Objekterkennung um +1,1 NDS und die BEV-Kartensegmentierung um +12,0 mIoU verbessert wird, gleichzeitig jedoch eine geringere Inferenzlatenz aufweist. Der Quellcode wird unter https://github.com/Haiyang-W/UniTR verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
UniTR: Ein einheitlicher und effizienter multimodaler Transformer für die Bird’s-Eye-View-Darstellung | Paper | HyperAI