Segmentation sémantique faiblement supervisée pour les scènes de conduite

Les techniques de pointe en segmentation sémantique faiblement supervisée (WSSS) utilisant des étiquettes au niveau d’image présentent une dégradation importante des performances sur des jeux de données de scènes routières tels que Cityscapes. Pour relever ce défi, nous proposons un nouveau cadre WSSS spécifiquement conçu pour les jeux de données de scènes routières. À partir d’une analyse approfondie des caractéristiques de ces jeux de données, nous adoptons le modèle Contrastive Language-Image Pre-training (CLIP) comme base afin d’obtenir des pseudo-masques. Toutefois, CLIP soulève deux défis majeurs : (1) les pseudo-masques générés par CLIP manquent de représentation pour les classes d’objets de petite taille, et (2) ces masques contiennent une quantité significative de bruit. Nous proposons des solutions pour chacun de ces problèmes comme suit. (1) Nous introduisons une stratégie d’apprentissage à vue globale-locale (Global-Local View Training), qui intègre de manière fluide des patches de petite taille pendant l’entraînement du modèle, améliorant ainsi sa capacité à traiter les objets de petite taille mais critiques dans les scènes routières (par exemple, les feux de signalisation). (2) Nous proposons une nouvelle technique, nommée Équilibrage régional conscient de la cohérence (Consistency-Aware Region Balancing, CARB), qui identifie les régions fiables et les régions bruitées en évaluant la cohérence entre les masques CLIP et les prédictions de segmentation. Cette méthode accorde une priorité aux pixels fiables par rapport aux pixels bruités grâce à un poids d’erreur adaptatif. Notamment, la méthode proposée atteint un score de 51,8 % en mIoU sur le jeu de test Cityscapes, démontrant son potentiel en tant que base robuste pour la WSSS sur les scènes routières. Les résultats expérimentaux sur CamVid et WildDash2 confirment l’efficacité de notre approche sur des jeux de données variés, même dans des conditions de données peu étendues ou visuellement complexes. Le code source est disponible à l’adresse suivante : https://github.com/k0u-id/CARB.