HyperAIHyperAI
vor 11 Tagen

X3KD: Wissensdistillation über Modalitäten, Aufgaben und Phasen für die Multi-Kamera-3D-Objekterkennung

{Fatih Porikli, Senthil Yogamani, Venkatraman Narayanan, Behnaz Rezaei, Varun Ravi Kumar, Shubhankar Borse, Marvin Klingner}
X3KD: Wissensdistillation über Modalitäten, Aufgaben und Phasen für die Multi-Kamera-3D-Objekterkennung
Abstract

Neuere Fortschritte in der 3D-Objekterkennung (3DOD) haben beachtliche Ergebnisse für LiDAR-basierte Modelle erzielt. Im Gegensatz dazu erzielen Surround-View-3DOD-Modelle, die auf mehreren Kameras basieren, aufgrund der notwendigen Transformierung von Merkmalen aus der perspektivischen Ansicht (PV) in eine 3D-Weltrepräsentation unterdurchschnittliche Leistungen, da diese Transformation aufgrund fehlender Tiefeninformationen mehrdeutig ist. In diesem Artikel stellen wir X3KD vor – einen umfassenden Wissensdistillation-Framework, der über verschiedene Modalitäten, Aufgaben und Entwicklungsstufen für Multi-Kamera-3DOD hinweg funktioniert. Konkret schlagen wir eine cross-task-Distillation aus einem Instanzsegmentierungs-Teacher (X-IS) im Stadium der PV-Merkmalsextraktion vor, die Supervision ohne mehrdeutige Fehlerrückpropagation durch die Ansichtstransformation ermöglicht. Nach der Transformation wenden wir cross-modal Merkmalsdistillation (X-FD) und adversariales Training (X-AT) an, um die 3D-Weltrepräsentation von Multi-Kamera-Merkmalen durch die im LiDAR-basierten 3DOD-Teacher enthaltene Information zu verbessern. Schließlich nutzen wir denselben Teacher auch für cross-modal Ausgabedistillation (X-OD), um dichte Supervision im Vorhersagestadium bereitzustellen. Wir führen umfassende Ablationen der Wissensdistillation an verschiedenen Stufen der Multi-Kamera-3DOD durch. Unser endgültiges X3KD-Modell übertrifft die bisherigen State-of-the-Art-Ansätze auf den Datensätzen nuScenes und Waymo und zeigt eine gute Generalisierungsfähigkeit auch für RADAR-basierte 3DOD. Qualitative Ergebnisvideos finden Sie unter https://youtu.be/1do9DPFmr38.

X3KD: Wissensdistillation über Modalitäten, Aufgaben und Phasen für die Multi-Kamera-3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI