HyperAIHyperAI
vor 2 Monaten

SVT-Net: Super leichtgewichtiger sparsamer Voxel-Transformer für großflächige Ortserkennung

Fan, Zhaoxin ; Song, Zhenbo ; Liu, Hongyan ; Lu, Zhiwu ; He, Jun ; Du, Xiaoyong
SVT-Net: Super leichtgewichtiger sparsamer Voxel-Transformer für großflächige Ortserkennung
Abstract

Die punktwolkenbasierte Großraumerkennung ist für viele Anwendungen wie die simultane Lokalisierung und Kartierung (SLAM) grundlegend. Obwohl zahlreiche Modelle vorgeschlagen wurden und durch das Lernen von kurzreichweitigen lokalen Merkmalen gute Leistungen erzielt haben, wurden langreichweitige kontextuelle Eigenschaften oft vernachlässigt. Darüber hinaus ist die Modellgröße auch zu einem Engpass für ihre weitreichende Anwendung geworden. Um diese Herausforderungen zu bewältigen, schlagen wir ein überaus leichtgewichtiges Netzwerkmodell vor, das als SVT-Net bezeichnet wird, für die Großraumerkennung. Insbesondere bauen wir auf der hoch effizienten 3D-Sparse-Konvolution (SP-Conv) auf und schlagen einen atombasierten dünn besetzten Voxel-Transformer (ASVT) sowie einen clusterbasierten dünn besetzten Voxel-Transformer (CSVT) vor, um sowohl kurzreichweitige lokale Merkmale als auch langreichweitige kontextuelle Merkmale in diesem Modell zu lernen. Durch die Kombination von ASVT und CSVT kann SVT-Net sowohl in Bezug auf Genauigkeit als auch Geschwindigkeit den aktuellen Stand der Technik auf Benchmark-Datensätzen erreichen, wobei es eine überaus kleine Modellgröße von 0,9 Mio. Parameter hat. Gleichzeitig werden zwei vereinfachte Versionen von SVT-Net vorgestellt, die ebenfalls den aktuellen Stand der Technik erreichen und die Modellgröße weiter reduzieren können, auf 0,8 Mio. und 0,4 Mio. Parameter jeweils.

SVT-Net: Super leichtgewichtiger sparsamer Voxel-Transformer für großflächige Ortserkennung | Neueste Forschungsarbeiten | HyperAI