2ヶ月前

SVT-Net: 大規模場所認識のための超軽量スパースボクセルトランスフォーマー

Fan, Zhaoxin ; Song, Zhenbo ; Liu, Hongyan ; Lu, Zhiwu ; He, Jun ; Du, Xiaoyong
SVT-Net: 大規模場所認識のための超軽量スパースボクセルトランスフォーマー
要約

点群を基にした大規模場所認識は、同時局所化とマッピング(Simultaneous Localization and Mapping: SLAM)などの多くの応用において基本的な技術となっています。多くのモデルが提案され、短距離の局所特徴を学習することで良好な性能を達成していますが、長距離の文脈的特性はしばしば軽視されてきました。さらに、モデルのサイズがその広範な応用におけるボトルネックとなっています。これらの課題を克服するために、我々は大規模場所認識向けの超軽量ネットワークモデルであるSVT-Netを提案します。具体的には、非常に効率的な3次元スパース畳み込み(3D Sparse Convolution: SP-Conv)に基づいて、アトムベースのスパースボクセルトランスフォーマー(Atom-based Sparse Voxel Transformer: ASVT)とクラスターベースのスパースボクセルトランスフォーマー(Cluster-based Sparse Voxel Transformer: CSVT)を提案し、このモデルで短距離の局所特徴と長距離の文脈的特徴双方を学習します。ASVTとCSVTから構成されるSVT-Netは、ベンチマークデータセットにおいて精度と速度の両面で最先端の性能を達成しつつ、超軽量なモデルサイズ(0.9M)を持っています。また、SVT-Netの2つの簡略化されたバージョンも紹介しており、これらも最先端の性能を達成し、さらにモデルサイズをそれぞれ0.8Mと0.4Mに削減しています。

SVT-Net: 大規模場所認識のための超軽量スパースボクセルトランスフォーマー | 最新論文 | HyperAI超神経