HyperAIHyperAI
il y a 3 mois

Distillation de connaissances Pointe-Voxel pour la segmentation sémantique LiDAR

Yuenan Hou, Xinge Zhu, Yuexin Ma, Chen Change Loy, Yikang Li
Distillation de connaissances Pointe-Voxel pour la segmentation sémantique LiDAR
Résumé

Cet article aborde le problème de la distillation de connaissances à partir d’un modèle enseignant volumineux vers un modèle étudiant léger pour la segmentation sémantique LiDAR. L’application directe des approches de distillation antérieures conduit à des résultats médiocres en raison des défis inhérents aux nuages de points, tels que la sparsité, le caractère aléatoire et la densité variable. Pour surmonter ces problèmes, nous proposons une méthode de distillation des connaissances Point-to-Voxel (PVD), qui transfère les connaissances cachées à la fois au niveau des points et au niveau des voxels. Plus précisément, nous utilisons d’abord la distillation des sorties au niveau ponctuel et au niveau voxelique afin de compléter les signaux de supervision épars. Ensuite, pour mieux exploiter les informations structurelles, nous divisons l’ensemble du nuage de points en plusieurs supervoxels et introduisons une stratégie d’échantillonnage sensible à la difficulté, qui échantillonne plus fréquemment les supervoxels contenant des classes rares ou des objets éloignés. Sur ces supervoxels, nous proposons une distillation d’affinité inter-point et inter-voxel, où l’information de similarité entre points et voxels permet au modèle étudiant de mieux capturer les structures de l’environnement ambiant. Nous menons des expériences approfondies sur deux benchmarks populaires pour la segmentation LiDAR : nuScenes et SemanticKITTI. Sur ces deux benchmarks, notre méthode PVD surpassent de manière consistante les approches antérieures avec une marge significative sur trois architectures représentatives : Cylinder3D, SPVNAS et MinkowskiNet. Notamment, sur les défis des jeux de données nuScenes et SemanticKITTI, notre méthode permet une réduction d’environ 75 % des opérations multiplicatives (MACs) et un accélération de 2x sur le modèle compétitif Cylinder3D, tout en se classant en tête du classement de SemanticKITTI parmi toutes les méthodes publiées. Le code source est disponible à l’adresse suivante : https://github.com/cardwing/Codes-for-PVKD.