HyperAIHyperAI

Command Palette

Search for a command to run...

BEVDistill: Cross-Modal BEV Distillation für die Multi-View 3D-Objekterkennung

Zehui Chen Zhenyu Li Shiquan Zhang Liangji Fang Qinhong Jiang Feng Zhao

Zusammenfassung

Die 3D-Objekterkennung aus mehreren Bildansichten ist eine grundlegende und herausfordernde Aufgabe für das visuelle Szenenverstehen. Aufgrund ihrer geringen Kosten und hohen Effizienz haben mehrere Bildansichten für die 3D-Objekterkennung vielversprechende Anwendungsperspektiven gezeigt. Allerdings ist die genaue Objekterkennung durch perspektivische Ansichten äußerst schwierig, da die Tiefeninformation fehlt. Aktuelle Ansätze neigen dazu, leistungsstarke Backbone-Netzwerke für die Bildcodierung einzusetzen, was ihre Anwendbarkeit in realen Szenarien erschwert. Im Gegensatz zu Bildern verfügen LiDAR-Punkte über eine überlegene Fähigkeit, räumliche Hinweise zu liefern, was zu einer sehr präzisen Lokalisierung führt. In diesem Paper untersuchen wir die Integration von LiDAR-basierten Detektoren in die mehransichtige 3D-Objekterkennung. Anstatt direkt ein Tiefenprädiktionsnetzwerk zu trainieren, vereinheitlichen wir die Bild- und LiDAR-Features im Bird-Eye-View (BEV)-Raum und transferieren adaptiv Wissen zwischen nicht-homogenen Darstellungen im Rahmen eines Lehrer-Schüler-Paradigmas. Dazu präsentieren wir \textbf{BEVDistill}, einen cross-modalen BEV-Wissensdistillations-(KD)-Rahmen für die mehransichtige 3D-Objekterkennung. Ausführliche Experimente zeigen, dass die vorgeschlagene Methode gegenwärtige KD-Ansätze auf einem hochkonkurrenzfähigen Baseline, dem BEVFormer, übertrifft, ohne zusätzlichen Aufwand im Inferenzphasen zu verursachen. Besonders hervorzuheben ist, dass unser bestes Modell eine NDS von 59,4 auf dem nuScenes-Test-Leaderboard erreicht und damit gegenüber verschiedenen bildbasierten Detektoren einen neuen SOTA (State-of-the-Art) erreicht. Der Quellcode wird unter https://github.com/zehuichen123/BEVDistill verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BEVDistill: Cross-Modal BEV Distillation für die Multi-View 3D-Objekterkennung | Paper | HyperAI