Moins, c’est plus : Réduction de la complexité des tâches et des modèles pour la segmentation sémantique de nuages de points 3D

Bien que la disponibilité des nuages de points 3D issus de LiDAR ait considérablement augmenté ces dernières années, l’étiquetage reste coûteux et chronophage, ce qui génère une forte demande pour des méthodes de segmentation sémantique semi-supervisée, notamment dans des domaines d’application tels que la conduite autonome. Les travaux existants utilisent souvent des réseaux de segmentation de grande taille afin d’améliorer la précision de segmentation, au détriment des coûts computationnels. En outre, de nombreuses approches recourent à un échantillonnage uniforme pour réduire les exigences en données étiquetées, ce qui entraîne fréquemment des performances sous-optimales. Pour répondre à ces défis, nous proposons une nouvelle pipeline reposant sur une architecture plus légère, capable d’atteindre une précision de segmentation supérieure à celle des approches actuelles tout en nécessitant moins d’étiquetages manuels. Ce gain est rendu possible grâce à un nouveau module de convolution creuse séparable, qui réduit significativement le nombre de paramètres du réseau tout en préservant la performance globale de la tâche. Pour échantillonner efficacement les données d’entraînement, nous introduisons une nouvelle méthode de réduction d’échantillonnage des cadres spatio-temporels redondants (ST-RFD), exploitant les connaissances sur le mouvement des capteurs dans l’environnement afin d’extraire un sous-ensemble plus diversifié d’échantillons de cadres d’entraînement. Pour tirer pleinement parti des échantillons de données étiquetées limités, nous proposons également une méthode de pseudo-étiquetage doux fondée sur la réflectivité LiDAR. Notre méthode surpasser les approches semi-supervisées contemporaines en termes de mIoU, tout en utilisant moins de données étiquetées, sur les jeux de données benchmarks SemanticKITTI (59,5@5 %) et ScribbleKITTI (58,1@5 %), avec une réduction de 2,3 fois du nombre de paramètres du modèle et une réduction de 641 fois des opérations de multiplication-addition, tout en démontrant une amélioration significative de la performance sur des ensembles d’entraînement restreints (« Moins, c’est plus »).