HyperAIHyperAI

Command Palette

Search for a command to run...

GeoBEV: Lernen einer geometrischen BEV-Darstellung für die Multiview-3D-Objekterkennung

Jinqing Zhang Yanan Zhang Yunlong Qi Zehua Fu Qingjie Liu Yunhong Wang

Zusammenfassung

Die Bird’s-Eye-View-(BEV-)Darstellung ist zu einem etablierten Paradigma für die Multi-View-3D-Objekterkennung geworden und zeichnet sich durch beeindruckende Wahrnehmungsfähigkeiten aus. Dennoch ignorieren bestehende Ansätze die geometrische Qualität der BEV-Darstellung, wodurch diese in einem niedrigen Auflösungsgrad verbleibt und die authentische geometrische Information der Szene nicht wiederhergestellt wird. In diesem Artikel identifizieren wir die Nachteile früherer Ansätze, die die geometrische Qualität der BEV-Darstellung einschränken, und stellen Radial-Cartesian BEV Sampling (RC-Sampling) vor, das andere Feature-Transformationstechniken hinsichtlich der effizienten Generierung einer hochauflösenden, dichten BEV-Darstellung übertrifft und somit fein strukturierte geometrische Informationen rekonstruiert. Zudem entwickeln wir ein neuartiges In-Box-Label, das das traditionelle aus LiDAR-Punkten abgeleitete Tiefenlabel ersetzt. Dieses Label spiegelt nicht nur die Oberfläche, sondern die tatsächliche geometrische Struktur von Objekten wider und integriert somit realweltbezogene geometrische Informationen direkt in die BEV-Darstellung. In Kombination mit dem In-Box-Label wird die Centroid-Aware Inner Loss (CAI-Loss) eingeführt, um die innere geometrische Struktur von Objekten präzise zu erfassen. Schließlich integrieren wir alle oben genannten Module in einen neuartigen Multi-View-3D-Objekterkennungsalgorithmus, der als GeoBEV bezeichnet wird und eine state-of-the-art-Ergebnis von 66,2 % NDS auf dem nuScenes-Testset erreicht. Der Quellcode ist unter https://github.com/mengtan00/GeoBEV.git verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GeoBEV: Lernen einer geometrischen BEV-Darstellung für die Multiview-3D-Objekterkennung | Paper | HyperAI