SqueezeSegV3 : Convolution Adaptative Spatialement pour une Segmentation Efficace des Nuages de Points

La segmentation des nuages de points LiDAR constitue un problème crucial pour de nombreuses applications. Pour la segmentation de grands nuages de points, la méthode de facto consiste à projeter un nuage de points 3D afin d’obtenir une image LiDAR 2D, puis à appliquer des convolutions pour son traitement. Bien que les images LiDAR présentent une certaine similarité avec les images RGB régulières, nous constatons que la distribution des caractéristiques dans les images LiDAR varie fortement selon les localisations dans l’image. L’utilisation de convolutions standard pour traiter de telles images LiDAR s’avère problématique, car les filtres de convolution captent des caractéristiques locales qui ne sont actives que dans des régions spécifiques de l’image. En conséquence, la capacité du réseau est sous-exploitée et la performance de segmentation s’en trouve compromise. Pour remédier à ce problème, nous proposons une convolution adaptative spatialement (SAC, Spatially-Adaptive Convolution), qui utilise des filtres différents selon les localisations, en fonction de l’image d’entrée. La SAC peut être calculée efficacement, car elle peut être mise en œuvre à l’aide d’une série de multiplications élément par élément, d’opérations im2col et de convolutions standards. Il s’agit d’un cadre général, dans lequel plusieurs méthodes antérieures peuvent être considérées comme des cas particuliers. En utilisant la SAC, nous avons conçu SqueezeSegV3 pour la segmentation des nuages de points LiDAR, qui surpassent toutes les méthodes publiées précédemment sur le benchmark SemanticKITTI d’au moins 3,7 % de mIoU, tout en maintenant une vitesse d’inférence comparable.