FishSegSSL : un cadre de segmentation sémantique semi-supervisée pour les images à objectif large
L’application de caméras à grand champ de vue (FoV) équipées de lentilles fisheye apporte des avantages significatifs à diverses applications du vision par ordinateur dans le monde réel, notamment dans le domaine du conduite autonome. Bien que l’apprentissage profond se soit avéré efficace dans les applications traditionnelles de vision par ordinateur utilisant des images à perspective régulière, son potentiel dans le contexte des caméras fisheye reste largement exploré, en raison du manque de jeux de données disponibles pour un apprentissage entièrement supervisé. L’apprentissage semi-supervisé apparaît alors comme une solution prometteuse pour relever ce défi. Dans cette étude, nous explorons et benchmarkons deux méthodes semi-supervisées populaires issues du domaine des images à perspective, adaptées à la segmentation d’images fisheye. Nous introduisons par ailleurs FishSegSSL, un nouveau cadre de segmentation d’images fisheye intégrant trois composants semi-supervisés : un filtrage des pseudo-étiquettes, un seuil de confiance dynamique et une augmentation forte robuste. Les évaluations effectuées sur le jeu de données WoodScape, recueilli à partir de caméras fisheye montées sur véhicules, démontrent que notre méthode améliore les performances du modèle jusqu’à 10,49 % par rapport aux approches entièrement supervisées utilisant la même quantité de données étiquetées. De plus, notre méthode permet d’optimiser les méthodes existantes de segmentation d’images de 2,34 %. À notre connaissance, il s’agit du premier travail consacré à la segmentation sémantique semi-supervisée d’images fisheye. En outre, nous menons une étude ablation exhaustive ainsi qu’une analyse de sensibilité afin de démontrer l’efficacité de chacune des méthodes proposées dans cette recherche.