HyperAIHyperAI
vor 11 Tagen

DSVT: Dynamischer spärlicher Voxel-Transformer mit rotierten Mengen

Haiyang Wang, Chen Shi, Shaoshuai Shi, Meng Lei, Sen Wang, Di He, Bernt Schiele, Liwei Wang
DSVT: Dynamischer spärlicher Voxel-Transformer mit rotierten Mengen
Abstract

Die Entwicklung eines effizienten, aber dennoch leicht deploybaren 3D-Backbone zur Verarbeitung spärlicher Punktwolken stellt ein grundlegendes Problem im Bereich der 3D-Wahrnehmung dar. Im Vergleich zu spezialisierten spärlichen Faltungen eignet sich die Aufmerksamkeitsmechanik in Transformers besser, um langreichweitige Beziehungen flexibel zu modellieren und sich zudem einfacher in reale Anwendungen integrieren zu lassen. Aufgrund der spärlichen Natur von Punktwolken ist die Anwendung eines herkömmlichen Transformers auf spärliche Punkte jedoch keineswegs trivial. In diesem Paper präsentieren wir den Dynamic Sparse Voxel Transformer (DSVT), einen einsträngigen, fensterbasierten Voxel-Transformer-Backbone für die Außenraum-3D-Wahrnehmung. Um spärliche Punkte effizient parallel verarbeiten zu können, schlagen wir Dynamic Sparse Window Attention vor, welches in jedem Fenster eine Reihe lokaler Regionen basierend auf der lokalen Spärlichkeit partitioniert und anschließend die Merkmale aller Regionen vollständig parallel berechnet. Um eine Kreuz-Mengen-Verbindung zu ermöglichen, entwerfen wir eine rotierte Mengenpartitionierungsstrategie, die zwischen zwei Partitionierungs-Konfigurationen in aufeinanderfolgenden Selbst-Attention-Schichten wechselt. Um effektive Downsampling-Operationen zu unterstützen und geometrische Informationen besser zu kodieren, führen wir zudem ein auf Aufmerksamkeit basierendes 3D-Pooling-Modul für spärliche Punkte ein, das leistungsstark und dennoch einfach zu deployen ist, ohne auf spezielle CUDA-Operationen zurückgreifen zu müssen. Unser Modell erreicht state-of-the-art-Leistungen bei einer Vielzahl von 3D-Wahrnehmungsaufgaben. Wichtiger noch: DSVT lässt sich problemlos mittels TensorRT deployen und erreicht dabei Echtzeit-Inferenzgeschwindigkeiten von 27 Hz. Der Quellcode wird unter \url{https://github.com/Haiyang-W/DSVT} verfügbar sein.

DSVT: Dynamischer spärlicher Voxel-Transformer mit rotierten Mengen | Neueste Forschungsarbeiten | HyperAI