DSVT : Transformateur de voxels creux dynamiques avec ensembles tournés

La conception d’un modèle fondamental 3D efficace et adapté au déploiement, capable de traiter des nuages de points creux, constitue un problème fondamental en perception 3D. Contrairement à la convolution creuse personnalisée, le mécanisme d’attention des Transformers s’avère plus adapté pour modéliser de manière flexible les relations à longue portée, et est également plus facile à déployer dans des applications du monde réel. Toutefois, en raison de la nature creuse des nuages de points, il n’est pas trivial d’appliquer un Transformer standard à des points épars. Dans cet article, nous proposons Dynamic Sparse Voxel Transformer (DSVT), un modèle fondamental Transformer basé sur des fenêtres à pas unitaire pour la perception 3D en extérieur. Afin de traiter efficacement les points creux de manière parallèle, nous introduisons Dynamic Sparse Window Attention, qui partitionne une série de régions locales au sein de chaque fenêtre en fonction de sa densité, puis calcule les caractéristiques de toutes ces régions de manière entièrement parallèle. Pour permettre des connexions entre ensembles, nous concevons une stratégie de partitionnement d’ensembles tournée, qui alterne entre deux configurations de partitionnement au sein des couches successives d’attention auto-récurrente. Pour soutenir un sous-échantillonnage efficace et encoder de manière plus précise les informations géométriques, nous proposons également un module de pooling 3D de type attention sur les points creux, puissant et facile à déployer, sans recourir à aucune opération CUDA personnalisée. Notre modèle atteint des performances de pointe sur une large gamme de tâches de perception 3D. Plus important encore, DSVT peut être facilement déployé via TensorRT, offrant une vitesse d’inférence en temps réel (27 Hz). Le code sera disponible à l’adresse \url{https://github.com/Haiyang-W/DSVT}.