HyperAIHyperAI
il y a 18 jours

Modèles fondamentaux collaboratifs pour la segmentation sémantique généralisée par domaine

Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, Stéphane Lathuilière
Modèles fondamentaux collaboratifs pour la segmentation sémantique généralisée par domaine
Résumé

La segmentation sémantique généralisée aux domaines (DGSS) consiste à entraîner un modèle sur un domaine source étiqueté afin qu’il puisse généraliser à des domaines non vus lors de l’inférence. Les méthodes actuelles de DGSS s’appuient généralement sur la randomisation de domaine (DR) pour extraire des caractéristiques robustes. Toutefois, cette approche présente des limites, car elle ne prend en compte que la diversité stylistique et non celle du contenu. Dans ce travail, nous proposons une approche orthogonale à la DGSS, en introduisant une architecture composée de modèles fondamentaux collaboratifs pour la segmentation sémantique généralisée aux domaines, appelée CLOUDS (CoLlaborative FOUndation models for Domain Generalized Semantic Segmentation). Plus précisément, CLOUDS est un cadre intégrant plusieurs types de modèles : (i) un modèle CLIP comme noyau pour une représentation robuste des caractéristiques, (ii) des modèles génératifs afin de diversifier le contenu, couvrant ainsi divers modes de la distribution cible possible, et (iii) le modèle Segment Anything Model (SAM) pour affiner itérativement les prédictions du modèle de segmentation. Des expériences étendues montrent que notre méthode CLOUDS excelle dans l’adaptation de données synthétiques vers des benchmarks réels de DGSS, ainsi qu’en conditions météorologiques variables, surpassant notablement les méthodes antérieures de 5,6 % et 6,7 % en moyenne sur l’indice miou, respectivement. Le code source est disponible à l’adresse suivante : https://github.com/yasserben/CLOUDS

Modèles fondamentaux collaboratifs pour la segmentation sémantique généralisée par domaine | Articles de recherche récents | HyperAI