Voxel Transformer für die 3D-Objekterkennung

Wir stellen Voxel Transformer (VoTr) vor, einen neuartigen und effektiven, auf Voxel basierenden Transformer-Backbone für die 3D-Objektdetektion aus Punktwolken. Herkömmliche 3D-Konvolutions-Backbones in voxelbasierten 3D-Detektoren können aufgrund begrenzter Empfindlichkeitsfelder (receptive fields) große Kontextinformationen nicht effizient erfassen, was für die Objekterkennung und -lokalisierung jedoch entscheidend ist. In dieser Arbeit lösen wir dieses Problem durch die Einführung einer Transformer-basierten Architektur, die durch Selbst-Attention (self-attention) langreichweitige Beziehungen zwischen Voxel ermöglicht. Angesichts der Tatsache, dass nicht-leere Voxel naturgemäß spärlich, aber zahlreich sind, ist die direkte Anwendung des herkömmlichen Transformers auf Voxel nicht trivial. Dementsprechend schlagen wir den Sparse Voxel-Modul und den Submanifold Voxel-Modul vor, die effektiv sowohl auf leeren als auch auf nicht-leeren Voxel-Positionen operieren können. Um den Aufmerksamkeitsbereich weiter zu vergrößern, während gleichzeitig der berechnungsmäßige Aufwand vergleichbar mit konventionellen Konvolutionen bleibt, stellen wir zwei Aufmerksamkeitsmechanismen für die Multi-Head-Aufmerksamkeit in diesen beiden Modulen vor: Local Attention und Dilated Attention. Zudem führen wir Fast Voxel Query ein, um den Abfrageprozess in der Multi-Head-Aufmerksamkeit zu beschleunigen. VoTr besteht aus einer Reihe von spärlichen und Submanifold-Voxel-Modulen und ist in den meisten voxelbasierten Detektoren einsetzbar. Unsere vorgeschlagene VoTr zeigt auf den Datensätzen KITTI und Waymo Open konsistente Verbesserungen gegenüber konvolutionellen Baselines, wobei die Berechnungseffizienz erhalten bleibt.