HyperAIHyperAI
vor 2 Monaten

BEVFormer: Lernen der Vogelperspektivischen Darstellung aus Multikamera-Bildern mittels räumlich-zeitlicher Transformer

Li, Zhiqi ; Wang, Wenhai ; Li, Hongyang ; Xie, Enze ; Sima, Chonghao ; Lu, Tong ; Yu, Qiao ; Dai, Jifeng
BEVFormer: Lernen der Vogelperspektivischen Darstellung aus Multikamera-Bildern mittels räumlich-zeitlicher Transformer
Abstract

3D-Bildwahrnehmungsaufgaben, einschließlich der 3D-Erkennung und Kartensegmentierung auf Basis von Multikamera-Bildern, sind für autonome Fahrzeugsysteme essentiell. In dieser Arbeit stellen wir einen neuen Rahmenwerk vor, den BEVFormer, der durch das Lernen vereinter BEV-Darstellungen mit räumlich-zeitlichen Transformer die Unterstützung mehrerer autonomer Fahrzeugwahrnehmungsaufgaben ermöglicht. Kurz gesagt, nutzt BEVFormer sowohl räumliche als auch zeitliche Informationen, indem er durch vorgegebene gitterförmige BEV-Anfragen (Bird's Eye View Queries) mit dem räumlich-zeitlichen Raum interagiert. Um räumliche Informationen zu aggregieren, haben wir eine räumliche Kreuzaufmerksamkeit (spatial cross-attention) entwickelt, bei der jede BEV-Anfrage die räumlichen Merkmale aus den Regionen von Interesse über verschiedene Kamerasichten extrahiert. Für zeitliche Informationen schlagen wir eine zeitliche Selbstaufmerksamkeit (temporal self-attention) vor, um die historischen BEV-Informationen rekurrent zu fusionieren. Unser Ansatz erreicht den neuen Stand der Technik mit 56,9 % gemessen am NDS-Metrik (NuScenes Detection Score) im nuScenes-\texttt{Test}-Datensatz, was 9,0 Punkte höher ist als der bisher beste Wert und vergleichbar mit der Leistung von LiDAR-basierten Baselines. Wir zeigen ferner, dass BEVFormer die Genauigkeit der Geschwindigkeitsabschätzung und das Erkennungsvermögen von Objekten unter Bedingungen geringer Sichtbarkeit erheblich verbessert. Der Quellcode ist unter \url{https://github.com/zhiqi-li/BEVFormer} verfügbar.

BEVFormer: Lernen der Vogelperspektivischen Darstellung aus Multikamera-Bildern mittels räumlich-zeitlicher Transformer | Neueste Forschungsarbeiten | HyperAI