HyperAIHyperAI

Command Palette

Search for a command to run...

BEVFormer: Lernen der Vogelperspektivischen Darstellung aus Multikamera-Bildern mittels räumlich-zeitlicher Transformer

Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

Zusammenfassung

3D-Bildwahrnehmungsaufgaben, einschließlich der 3D-Erkennung und Kartensegmentierung auf Basis von Multikamera-Bildern, sind für autonome Fahrzeugsysteme essentiell. In dieser Arbeit stellen wir einen neuen Rahmenwerk vor, den BEVFormer, der durch das Lernen vereinter BEV-Darstellungen mit räumlich-zeitlichen Transformer die Unterstützung mehrerer autonomer Fahrzeugwahrnehmungsaufgaben ermöglicht. Kurz gesagt, nutzt BEVFormer sowohl räumliche als auch zeitliche Informationen, indem er durch vorgegebene gitterförmige BEV-Anfragen (Bird's Eye View Queries) mit dem räumlich-zeitlichen Raum interagiert. Um räumliche Informationen zu aggregieren, haben wir eine räumliche Kreuzaufmerksamkeit (spatial cross-attention) entwickelt, bei der jede BEV-Anfrage die räumlichen Merkmale aus den Regionen von Interesse über verschiedene Kamerasichten extrahiert. Für zeitliche Informationen schlagen wir eine zeitliche Selbstaufmerksamkeit (temporal self-attention) vor, um die historischen BEV-Informationen rekurrent zu fusionieren. Unser Ansatz erreicht den neuen Stand der Technik mit 56,9 % gemessen am NDS-Metrik (NuScenes Detection Score) im nuScenes-\texttt{Test}-Datensatz, was 9,0 Punkte höher ist als der bisher beste Wert und vergleichbar mit der Leistung von LiDAR-basierten Baselines. Wir zeigen ferner, dass BEVFormer die Genauigkeit der Geschwindigkeitsabschätzung und das Erkennungsvermögen von Objekten unter Bedingungen geringer Sichtbarkeit erheblich verbessert. Der Quellcode ist unter \url{https://github.com/zhiqi-li/BEVFormer} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BEVFormer: Lernen der Vogelperspektivischen Darstellung aus Multikamera-Bildern mittels räumlich-zeitlicher Transformer | Paper | HyperAI