Segmentation sémantique multi-domaines sur une taxonomie incohérente à l’aide de VLM

Le défi de la segmentation sémantique dans le cadre de l’adaptation de domaine non supervisée (UDA) découle non seulement des décalages entre les domaines source et cible, mais aussi des incohérences entre les taxonomies des classes dans ces domaines. Les recherches traditionnelles en UDA supposent une taxonomie cohérente entre les domaines source et cible, ce qui limite leur capacité à reconnaître et à s’adapter à la taxonomie du domaine cible. Ce papier présente une nouvelle approche, appelée CSI (Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using Vision Language Models), qui permet efficacement la segmentation sémantique adaptative au domaine, même en présence de désaccords entre les classes source et cible. CSI exploite le potentiel de généralisation sémantique des Modèles Vision-Language (VLM) afin de créer une synergie avec les méthodes UDA existantes. Elle combine les résultats de raisonnement par segments obtenus via les méthodes UDA classiques avec les connaissances sémantiques riches intégrées dans les VLM, afin de réétiqueter de nouvelles classes dans le domaine cible. Cette approche permet une adaptation efficace à des taxonomies étendues, sans nécessiter aucune étiquette de vérité terrain pour le domaine cible. Notre méthode s’est révélée efficace sur diverses benchmarks dans des scénarios de taxonomies incohérentes (taxonomies de type grossier-vers-fin et taxonomies ouvertes), et montre des effets synergetiques constants lorsqu’elle est intégrée à des méthodes UDA de pointe antérieures. Le code source est disponible à l’adresse http://github.com/jkee58/CSI.