il y a 17 jours

CAR : Régularisations conscientes de classe pour la segmentation sémantique

Ye Huang, Di Kang, Liang Chen, Xuefei Zhe, Wenjing Jia, Xiangjian He, Linchao Bao

Résumé

Les méthodes récentes de segmentation, telles que OCR et CPNet, qui exploitent à la fois les informations de niveau « classe » et les caractéristiques des pixels, ont connu un succès notable dans l’amélioration de la précision des modules de réseau existants. Toutefois, les informations de niveau classe extraites sont simplement concaténées aux caractéristiques des pixels, sans être explicitement exploitées pour une meilleure apprentissage des représentations des pixels. En outre, ces approches apprennent des centres de classe doux à partir de prédictions de masques grossières, ce qui rend leur résultat sensible à l’accumulation d’erreurs. Dans ce travail, afin d’utiliser plus efficacement les informations de niveau classe, nous proposons une approche universelle de régularisation consciente de la classe (Class-Aware Regularization, CAR), visant à optimiser la variance intra-classe et la distance inter-classe durant l’apprentissage des caractéristiques, motivée par le fait que les humains peuvent reconnaître un objet indépendamment des autres objets présents dans la scène. Trois nouvelles fonctions de perte sont introduites : la première encourage une représentation de classe plus compacte à l’intérieur de chaque classe, la seconde maximise directement la distance entre les centres de classes différentes, et la troisième pousse davantage la distance entre les centres inter-classe et les pixels. En outre, les centres de classe dans notre approche sont directement générés à partir des vérités terrain, plutôt que des prédictions erronées issues de masques grossiers. Notre méthode peut être facilement appliquée à la plupart des modèles de segmentation existants durant l’entraînement, y compris OCR et CPNet, et permet d’améliorer significativement leur précision sans surcharge au moment de l’inférence. Des expériences étendues et des études d’ablation menées sur plusieurs jeux de données standard montrent que la CAR proposée améliore la précision de tous les modèles de base de jusqu’à 2,23 % en mIOU, tout en offrant une excellente capacité de généralisation. Le code complet est disponible à l’adresse suivante : https://github.com/edwardyehuang/CAR.