SemiCD-VL : L'orientation par un modèle visuel-linguistique améliore le détecteur de changement semi-supervisé

La détection de changement (DC) vise à identifier les pixels présentant des changements sémantiques entre des images. Cependant, l'annotation de grands nombres d'images au niveau des pixels est une tâche fastidieuse et coûteuse, en particulier pour les images multi-temporelles, qui nécessitent des comparaisons pixel par pixel effectuées par des experts humains. Étant donné les performances exceptionnelles des modèles visuels linguistiques (VLM) pour la détection de changement sans supervision, le vocabulaire ouvert, etc., grâce au raisonnement basé sur des prompts, il est prometteur d'utiliser les VLM pour améliorer la DC avec un nombre limité de données étiquetées. Dans cet article, nous proposons une méthode de DC semi-supervisée guidée par les VLM, appelée SemiCD-VL. L'idée directrice de SemiCD-VL consiste à synthétiser des étiquettes de changement gratuites à l'aide des VLM afin de fournir des signaux de supervision supplémentaires aux données non étiquetées. Cependant, presque tous les VLM actuels sont conçus pour des images mono-temporelles et ne peuvent pas être appliqués directement aux images bi- ou multi-temporelles. Motivés par cette constatation, nous proposons d'abord une stratégie de génération mixte d'événements de changement (CEG) basée sur les VLM pour produire des étiquettes pseudo pour les données CD non étiquetées. Comme les signaux supervisés supplémentaires fournis par ces étiquettes pseudo générées par les VLM peuvent entrer en conflit avec les étiquettes pseudo issues du paradigme de régularisation cohérente (par exemple FixMatch), nous proposons une tête projectrice double pour dissocier différentes sources de signaux. De plus, nous dissocions explicitement la représentation sémantique des images bi-temporelles à travers deux décodeurs auxiliaires de segmentation, également guidés par les VLM. Enfin, pour permettre au modèle de capturer plus adéquatement les représentations de changement, nous introduisons une supervision sensible aux métriques par une perte contrastive au niveau des caractéristiques dans les branches auxiliaires. Des expériences approfondies montrent l'avantage de SemiCD-VL. Par exemple, SemiCD-VL améliore la ligne de base FixMatch de +5,3 IoU sur WHU-CD et de +2,4 IoU sur LEVIR-CD avec 5 % d'étiquettes. De plus, notre stratégie CEG, sans supervision, peut atteindre des performances largement supérieures aux méthodes CD non supervisées actuelles.Note : - "IoU" est traduit comme tel car c'est un terme technique couramment utilisé en français aussi (Intersection over Union).- Les noms propres tels que "WHU-CD" et "LEVIR-CD" sont conservés tels quels car ils font référence à des datasets spécifiques.- "FixMatch" est également conservé car c'est le nom d'une méthode spécifique dans le domaine.- "SemiCD-VL" est traduit comme indiqué dans le texte original.- "CEG" est traduit comme indiqué dans le texte original (génération mixte d'événements de changement).