HyperAIHyperAI

Command Palette

Search for a command to run...

Voxel Transformer für die 3D-Objekterkennung

Jiageng Mao Yujing Xue Minzhe Niu Haoyue Bai Jiashi Feng Xiaodan Liang Hang Xu Chunjing Xu

Zusammenfassung

Wir stellen Voxel Transformer (VoTr) vor, einen neuartigen und effektiven, auf Voxel basierenden Transformer-Backbone für die 3D-Objektdetektion aus Punktwolken. Herkömmliche 3D-Konvolutions-Backbones in voxelbasierten 3D-Detektoren können aufgrund begrenzter Empfindlichkeitsfelder (receptive fields) große Kontextinformationen nicht effizient erfassen, was für die Objekterkennung und -lokalisierung jedoch entscheidend ist. In dieser Arbeit lösen wir dieses Problem durch die Einführung einer Transformer-basierten Architektur, die durch Selbst-Attention (self-attention) langreichweitige Beziehungen zwischen Voxel ermöglicht. Angesichts der Tatsache, dass nicht-leere Voxel naturgemäß spärlich, aber zahlreich sind, ist die direkte Anwendung des herkömmlichen Transformers auf Voxel nicht trivial. Dementsprechend schlagen wir den Sparse Voxel-Modul und den Submanifold Voxel-Modul vor, die effektiv sowohl auf leeren als auch auf nicht-leeren Voxel-Positionen operieren können. Um den Aufmerksamkeitsbereich weiter zu vergrößern, während gleichzeitig der berechnungsmäßige Aufwand vergleichbar mit konventionellen Konvolutionen bleibt, stellen wir zwei Aufmerksamkeitsmechanismen für die Multi-Head-Aufmerksamkeit in diesen beiden Modulen vor: Local Attention und Dilated Attention. Zudem führen wir Fast Voxel Query ein, um den Abfrageprozess in der Multi-Head-Aufmerksamkeit zu beschleunigen. VoTr besteht aus einer Reihe von spärlichen und Submanifold-Voxel-Modulen und ist in den meisten voxelbasierten Detektoren einsetzbar. Unsere vorgeschlagene VoTr zeigt auf den Datensätzen KITTI und Waymo Open konsistente Verbesserungen gegenüber konvolutionellen Baselines, wobei die Berechnungseffizienz erhalten bleibt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp