vor 11 Tagen

Voxel Transformer für die 3D-Objekterkennung

Jiageng Mao, Yujing Xue, Minzhe Niu, Haoyue Bai, Jiashi Feng, Xiaodan Liang, Hang Xu, Chunjing Xu

Abstract

Wir stellen Voxel Transformer (VoTr) vor, einen neuartigen und effektiven, auf Voxel basierenden Transformer-Backbone für die 3D-Objektdetektion aus Punktwolken. Herkömmliche 3D-Konvolutions-Backbones in voxelbasierten 3D-Detektoren können aufgrund begrenzter Empfindlichkeitsfelder (receptive fields) große Kontextinformationen nicht effizient erfassen, was für die Objekterkennung und -lokalisierung jedoch entscheidend ist. In dieser Arbeit lösen wir dieses Problem durch die Einführung einer Transformer-basierten Architektur, die durch Selbst-Attention (self-attention) langreichweitige Beziehungen zwischen Voxel ermöglicht. Angesichts der Tatsache, dass nicht-leere Voxel naturgemäß spärlich, aber zahlreich sind, ist die direkte Anwendung des herkömmlichen Transformers auf Voxel nicht trivial. Dementsprechend schlagen wir den Sparse Voxel-Modul und den Submanifold Voxel-Modul vor, die effektiv sowohl auf leeren als auch auf nicht-leeren Voxel-Positionen operieren können. Um den Aufmerksamkeitsbereich weiter zu vergrößern, während gleichzeitig der berechnungsmäßige Aufwand vergleichbar mit konventionellen Konvolutionen bleibt, stellen wir zwei Aufmerksamkeitsmechanismen für die Multi-Head-Aufmerksamkeit in diesen beiden Modulen vor: Local Attention und Dilated Attention. Zudem führen wir Fast Voxel Query ein, um den Abfrageprozess in der Multi-Head-Aufmerksamkeit zu beschleunigen. VoTr besteht aus einer Reihe von spärlichen und Submanifold-Voxel-Modulen und ist in den meisten voxelbasierten Detektoren einsetzbar. Unsere vorgeschlagene VoTr zeigt auf den Datensätzen KITTI und Waymo Open konsistente Verbesserungen gegenüber konvolutionellen Baselines, wobei die Berechnungseffizienz erhalten bleibt.