M3DeTR: Multi-Representation, Multi-Scale, Mutual-Relation 3D Object Detection mit Transformers

Wir stellen eine neuartige Architektur für die 3D-Objekterkennung, M3DeTR, vor, die verschiedene Punktwolkenrepräsentationen (roh, Voxel, Bird’s-Eye-View) sowie unterschiedliche Merkmalskalen basierend auf mehrskaligen Merkmalspyramiden kombiniert. M3DeTR ist der erste Ansatz, der gleichzeitig mehrere Punktwolkenrepräsentationen, Merkmalskalen sowie die wechselseitigen Beziehungen zwischen Punktwolken mittels Transformers vereint. Wir führen umfangreiche Ablationsstudien durch, die die Vorteile der Fusion von Repräsentation und Skala sowie der Modellierung von Beziehungen hervorheben. Unser Verfahren erreicht Spitzenleistung auf dem KITTI 3D-Objekterkennungsdatensatz sowie dem Waymo Open Dataset. Die Ergebnisse zeigen, dass M3DeTR die Baseline auf dem Waymo Open Dataset signifikant um 1,48 % mAP für alle Klassen verbessert. Insbesondere erreicht unser Ansatz bei der bekannten KITTI 3D-Detection-Benchmark sowohl für die Klassen „Auto“ als auch „Fahrradfahrer“ die erste Platzierung und belegt zudem die Spitzenposition auf dem Waymo Open Dataset bei Eingabe eines einzelnen Rahmens mit Punktwolke. Der Quellcode ist verfügbar unter: https://github.com/rayguan97/M3DETR.