HyperAIHyperAI
il y a 11 jours

Distillation de connaissances guidée par les étiquettes pour la segmentation sémantique continue sur des images 2D et des nuages de points 3D

{Guosheng Lin, Minhoe Hur, Keng Teck Ma, Dezhao Huang, Yiming Wang, Chi Zhang, Evan Ling, Ruibo Li, Ze Yang}
Distillation de connaissances guidée par les étiquettes pour la segmentation sémantique continue sur des images 2D et des nuages de points 3D
Résumé

La segmentation sémantique continue (CSS) vise à étendre un modèle existant afin qu’il puisse traiter de nouvelles tâches tout en préservant ses connaissances antérieures. Une adaptation directe (fine-tuning) du modèle ancien sur de nouvelles données entraîne généralement un oubli catastrophique. Une solution courante repose sur la distillation de connaissances (KD), où la distribution de sortie du nouveau modèle est régularisée pour qu’elle ressemble à celle du modèle ancien. Toutefois, en CSS, cette approche est complexe en raison du problème de décalage arrière-plan. Les méthodes actuelles basées sur la KD souffrent encore d’une confusion entre les classes arrière-plan et les nouvelles classes, car elles ne parviennent pas à établir une correspondance fiable entre les classes pour la distillation. Pour résoudre ce problème, nous proposons une nouvelle perte de distillation de connaissances guidée par les étiquettes (LGKD), dans laquelle les sorties du modèle ancien sont étendues et transplantées (avec l’aide des étiquettes de vérité terrain) afin de former une correspondance sémantiquement appropriée avec les sorties du nouveau modèle. Ainsi, les connaissances utiles du modèle ancien peuvent être efficacement transférées au nouveau modèle sans engendrer de confusion. Nous menons des expériences approfondies sur deux benchmarks largement utilisés en CSS, Pascal-VOC et ADE20K, où notre LGKD améliore significativement les performances de trois méthodes concurrentes, en particulier en termes de mIoU sur les nouvelles classes, avec une augmentation allant jusqu’à +76 %, établissant ainsi un nouveau record d’état de l’art. Enfin, pour démontrer davantage sa capacité de généralisation, nous introduisons le premier benchmark de CSS basé sur les nuages de points 3D, fondé sur ScanNet, accompagné de plusieurs baselines réimplémentées pour la comparaison. Les expériences montrent que LGKD est polyvalente à la fois en modality 2D et 3D, sans nécessiter de conception spécifique. Le code est disponible à l’adresse suivante : https://github.com/Ze-Yang/LGKD.

Distillation de connaissances guidée par les étiquettes pour la segmentation sémantique continue sur des images 2D et des nuages de points 3D | Articles de recherche récents | HyperAI