SqueezeSeg : Réseaux de neurones convolutifs avec CRF récurrent pour la segmentation en temps réel d'objets routiers à partir de nuages de points 3D LiDAR

Dans cet article, nous abordons le problème de la segmentation sémantique des objets routiers à partir de nuages de points 3D LiDAR. Plus particulièrement, notre objectif est de détecter et catégoriser les instances d'intérêt, telles que les voitures, les piétons et les cyclistes. Nous formulons ce problème comme un problème de classification ponctuelle et proposons une pipeline complète appelée SqueezeSeg, basée sur les réseaux neuronaux convolutifs (CNN) : le CNN prend en entrée un nuage de points LiDAR transformé et produit directement une carte d'étiquettes ponctuelles, qui est ensuite affinée par un champ aléatoire conditionnel (CRF) mis en œuvre sous forme de couche récurrente. Les étiquettes au niveau des instances sont ensuite obtenues par des algorithmes de regroupement conventionnels. Notre modèle CNN est entraîné sur des nuages de points LiDAR issus du jeu KITTI, et nos étiquettes de segmentation ponctuelle sont dérivées des boîtes englobantes 3D du même jeu. Pour obtenir des données d'entraînement supplémentaires, nous avons intégré un simulateur LiDAR dans Grand Theft Auto V (GTA-V), un jeu vidéo populaire, afin de synthétiser de grandes quantités de données d'entraînement réalistes. Nos expériences montrent que SqueezeSeg atteint une précision élevée avec un temps d'exécution étonnamment rapide et stable (8,7 ms par image), ce qui est très souhaitable pour les applications de conduite autonome. De plus, l'entraînement supplémentaire sur des données synthétiques améliore la précision de validation sur des données réelles. Notre code source et nos données synthétiques seront rendus open-source.