HyperAIHyperAI
il y a 11 jours

Adopter un détecteur 3D à pas unique avec Transformer épars

Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
Adopter un détecteur 3D à pas unique avec Transformer épars
Résumé

Dans la détection 3D d’objets basée sur LiDAR pour les véhicules autonomes, le rapport entre la taille de l’objet et la taille de la scène d’entrée est nettement plus faible qu’il ne l’est dans les cas de détection 2D. En ignorant cette différence, de nombreux détecteurs 3D suivent directement la pratique courante des détecteurs 2D, en effectuant une réduction d’échantillonnage des cartes de caractéristiques même après la quantification des nuages de points. Dans ce papier, nous reprenons d’abord la réflexion sur l’impact de ce stéréotype multi-échelle sur les détecteurs 3D basés sur LiDAR. Nos expérimentations montrent que les opérations de réduction d’échantillonnage apportent peu d’avantages et entraînent inévitablement une perte d’information. Pour remédier à ce problème, nous proposons le Single-stride Sparse Transformer (SST), une architecture qui conserve la résolution initiale tout au long du réseau, depuis le début jusqu’à la fin. Grâce à l’utilisation de transformateurs, notre méthode surmonte le problème du champ réceptif insuffisant caractéristique des architectures à pas unique. Elle s’accommode également efficacement de la nature creuse des nuages de points et évite naturellement les calculs coûteux. En fin de compte, notre SST atteint des résultats de pointe sur le grand jeu de données Waymo Open Dataset. Il est à noter que notre méthode obtient des performances remarquables (83,8 AP Niveau 1 sur le split de validation) pour la détection des petits objets (piétons), grâce à la caractéristique de pas unique. Le code source sera publié à l’adresse suivante : https://github.com/TuSimple/SST