GeoBEV: Lernen einer geometrischen BEV-Darstellung für die Multiview-3D-Objekterkennung

Die Bird’s-Eye-View-(BEV-)Darstellung ist zu einem etablierten Paradigma für die Multi-View-3D-Objekterkennung geworden und zeichnet sich durch beeindruckende Wahrnehmungsfähigkeiten aus. Dennoch ignorieren bestehende Ansätze die geometrische Qualität der BEV-Darstellung, wodurch diese in einem niedrigen Auflösungsgrad verbleibt und die authentische geometrische Information der Szene nicht wiederhergestellt wird. In diesem Artikel identifizieren wir die Nachteile früherer Ansätze, die die geometrische Qualität der BEV-Darstellung einschränken, und stellen Radial-Cartesian BEV Sampling (RC-Sampling) vor, das andere Feature-Transformationstechniken hinsichtlich der effizienten Generierung einer hochauflösenden, dichten BEV-Darstellung übertrifft und somit fein strukturierte geometrische Informationen rekonstruiert. Zudem entwickeln wir ein neuartiges In-Box-Label, das das traditionelle aus LiDAR-Punkten abgeleitete Tiefenlabel ersetzt. Dieses Label spiegelt nicht nur die Oberfläche, sondern die tatsächliche geometrische Struktur von Objekten wider und integriert somit realweltbezogene geometrische Informationen direkt in die BEV-Darstellung. In Kombination mit dem In-Box-Label wird die Centroid-Aware Inner Loss (CAI-Loss) eingeführt, um die innere geometrische Struktur von Objekten präzise zu erfassen. Schließlich integrieren wir alle oben genannten Module in einen neuartigen Multi-View-3D-Objekterkennungsalgorithmus, der als GeoBEV bezeichnet wird und eine state-of-the-art-Ergebnis von 66,2 % NDS auf dem nuScenes-Testset erreicht. Der Quellcode ist unter https://github.com/mengtan00/GeoBEV.git verfügbar.