HyperAIHyperAI

Command Palette

Search for a command to run...

DSVT: Dynamischer spärlicher Voxel-Transformer mit rotierten Mengen

Haiyang Wang Chen Shi Shaoshuai Shi Meng Lei Sen Wang Di He Bernt Schiele Liwei Wang

Zusammenfassung

Die Entwicklung eines effizienten, aber dennoch leicht deploybaren 3D-Backbone zur Verarbeitung spärlicher Punktwolken stellt ein grundlegendes Problem im Bereich der 3D-Wahrnehmung dar. Im Vergleich zu spezialisierten spärlichen Faltungen eignet sich die Aufmerksamkeitsmechanik in Transformers besser, um langreichweitige Beziehungen flexibel zu modellieren und sich zudem einfacher in reale Anwendungen integrieren zu lassen. Aufgrund der spärlichen Natur von Punktwolken ist die Anwendung eines herkömmlichen Transformers auf spärliche Punkte jedoch keineswegs trivial. In diesem Paper präsentieren wir den Dynamic Sparse Voxel Transformer (DSVT), einen einsträngigen, fensterbasierten Voxel-Transformer-Backbone für die Außenraum-3D-Wahrnehmung. Um spärliche Punkte effizient parallel verarbeiten zu können, schlagen wir Dynamic Sparse Window Attention vor, welches in jedem Fenster eine Reihe lokaler Regionen basierend auf der lokalen Spärlichkeit partitioniert und anschließend die Merkmale aller Regionen vollständig parallel berechnet. Um eine Kreuz-Mengen-Verbindung zu ermöglichen, entwerfen wir eine rotierte Mengenpartitionierungsstrategie, die zwischen zwei Partitionierungs-Konfigurationen in aufeinanderfolgenden Selbst-Attention-Schichten wechselt. Um effektive Downsampling-Operationen zu unterstützen und geometrische Informationen besser zu kodieren, führen wir zudem ein auf Aufmerksamkeit basierendes 3D-Pooling-Modul für spärliche Punkte ein, das leistungsstark und dennoch einfach zu deployen ist, ohne auf spezielle CUDA-Operationen zurückgreifen zu müssen. Unser Modell erreicht state-of-the-art-Leistungen bei einer Vielzahl von 3D-Wahrnehmungsaufgaben. Wichtiger noch: DSVT lässt sich problemlos mittels TensorRT deployen und erreicht dabei Echtzeit-Inferenzgeschwindigkeiten von 27 Hz. Der Quellcode wird unter \url{https://github.com/Haiyang-W/DSVT} verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DSVT: Dynamischer spärlicher Voxel-Transformer mit rotierten Mengen | Paper | HyperAI