HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

X3KD: Wissensdistillation über Modalitäten, Aufgaben und Phasen für die Multi-Kamera-3D-Objekterkennung

{Fatih Porikli Senthil Yogamani Venkatraman Narayanan Behnaz Rezaei Varun Ravi Kumar Shubhankar Borse Marvin Klingner}

X3KD: Wissensdistillation über Modalitäten, Aufgaben und Phasen für die Multi-Kamera-3D-Objekterkennung

Abstract

Neuere Fortschritte in der 3D-Objekterkennung (3DOD) haben beachtliche Ergebnisse für LiDAR-basierte Modelle erzielt. Im Gegensatz dazu erzielen Surround-View-3DOD-Modelle, die auf mehreren Kameras basieren, aufgrund der notwendigen Transformierung von Merkmalen aus der perspektivischen Ansicht (PV) in eine 3D-Weltrepräsentation unterdurchschnittliche Leistungen, da diese Transformation aufgrund fehlender Tiefeninformationen mehrdeutig ist. In diesem Artikel stellen wir X3KD vor – einen umfassenden Wissensdistillation-Framework, der über verschiedene Modalitäten, Aufgaben und Entwicklungsstufen für Multi-Kamera-3DOD hinweg funktioniert. Konkret schlagen wir eine cross-task-Distillation aus einem Instanzsegmentierungs-Teacher (X-IS) im Stadium der PV-Merkmalsextraktion vor, die Supervision ohne mehrdeutige Fehlerrückpropagation durch die Ansichtstransformation ermöglicht. Nach der Transformation wenden wir cross-modal Merkmalsdistillation (X-FD) und adversariales Training (X-AT) an, um die 3D-Weltrepräsentation von Multi-Kamera-Merkmalen durch die im LiDAR-basierten 3DOD-Teacher enthaltene Information zu verbessern. Schließlich nutzen wir denselben Teacher auch für cross-modal Ausgabedistillation (X-OD), um dichte Supervision im Vorhersagestadium bereitzustellen. Wir führen umfassende Ablationen der Wissensdistillation an verschiedenen Stufen der Multi-Kamera-3DOD durch. Unser endgültiges X3KD-Modell übertrifft die bisherigen State-of-the-Art-Ansätze auf den Datensätzen nuScenes und Waymo und zeigt eine gute Generalisierungsfähigkeit auch für RADAR-basierte 3DOD. Qualitative Ergebnisvideos finden Sie unter https://youtu.be/1do9DPFmr38.

Benchmarks

BenchmarkMethodikMetriken
3d-object-detection-on-nuscenes-camera-radarX3KD
NDS: 55.3

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp