CenterFormer: Center-basierter Transformer für die 3D-Objekterkennung

Query-basierte Transformer haben großes Potenzial bei der Konstruktion von Langstrecken-Attention in zahlreichen Aufgaben im Bildbereich gezeigt, wurden jedoch aufgrund der enormen Datenmenge von Punktewolken in der LiDAR-basierten 3D-Objekterkennung bisher kaum berücksichtigt. In diesem Artikel stellen wir CenterFormer vor, ein zentrumsbasiertes Transformer-Netzwerk für die 3D-Objekterkennung. CenterFormer nutzt zunächst eine Zentrumswärmebildkarte, um Zentrumskandidaten auf Basis eines herkömmlichen voxelbasierten Punktewolken-Encoders auszuwählen. Anschließend dient die Merkmalsrepräsentation des Zentrumskandidaten als Query-Einbettung im Transformer. Um zusätzliche Merkmale aus mehreren Frames zu aggregieren, entwickeln wir eine Methode zur Merkmalsfusion mittels Cross-Attention. Schließlich werden Regressionsköpfe hinzugefügt, um die Bounding Box auf der Ausgaberepräsentation der Zentrumsmerkmale vorherzusagen. Unser Entwurf reduziert die Konvergenzschwierigkeiten und die rechnerische Komplexität der Transformer-Architektur. Die Ergebnisse zeigen signifikante Verbesserungen gegenüber dem starken Baseline-Modell von anchor-free Objekterkennungsnetzwerken. CenterFormer erreicht mit 73,7 % mAPH auf dem Validierungsset und 75,6 % mAPH auf dem Testset des Waymo Open Datasets die bisher beste Leistung für ein einzelnes Modell und übertrifft deutlich alle zuvor veröffentlichten CNN- und Transformer-basierten Ansätze. Der Quellcode ist öffentlich unter https://github.com/TuSimple/centerformer verfügbar.