PolarFormer: Multikamera-3D-Objekterkennung mit Polar-Transformer

Die 3D-Objekterkennung im autonomen Fahren zielt darauf ab, „was“ und „wo“ sich Objekte von Interesse in einer 3D-Welt befinden, zu erkennen. Angesichts der etablierten Vorgehensweise bei der 2D-Objekterkennung setzen bestehende Methoden häufig das klassische kartesische Koordinatensystem mit senkrechten Achsen ein. Wir argumentieren jedoch, dass dieses System nicht der Perspektive des eigenen Fahrzeugs entspricht, da jede am Fahrzeug montierte Kamera die Welt in Form eines Keils wahrnimmt, der durch die geometrische Struktur der Bildaufnahme gegeben ist und radikale (nicht senkrechte) Achsen aufweist. Daher befürworten wir in diesem Artikel die Nutzung des Polarkoordinatensystems und stellen einen neuen Polar Transformer (PolarFormer) vor, der eine präzisere 3D-Objekterkennung in Vogelperspektive (Bird’s-Eye-View, BEV) ermöglicht, wobei lediglich mehrere 2D-Bilder aus mehreren Kameras als Eingabe dienen. Konkret entwerfen wir einen auf Kreuz-Attention basierenden Polar-Detektionskopf, der keine Einschränkungen bezüglich der Eingabestruktur aufweist und somit unregelmäßige Polargitter effektiv verarbeiten kann. Um die unbeschränkten Skalenvariationen von Objekten entlang der Abstandsdimension im Polarkoordinatensystem zu bewältigen, führen wir zudem eine mehrstufige Polardarstellungslernstrategie ein. Dadurch kann unser Modell die Polardarstellung optimal nutzen, indem es sequenz-zu-Sequenz-artig auf die entsprechenden Bildbeobachtungen achtet und dabei geometrische Einschränkungen berücksichtigt. Ausführliche Experimente auf dem nuScenes-Datensatz zeigen, dass unser PolarFormer die derzeit besten Ansätze zur 3D-Objekterkennung deutlich übertrifft.