Vers une détection de changement de scène généralisable

Bien que les approches actuelles de pointe en Détection de Changement de Scène (SCD) obtiennent des résultats impressionnants sur des données de recherche bien entraînées, elles deviennent peu fiables dans des environnements inconnus et sous différentes conditions temporelles ; la performance en domaine connu passe de 77,6 % à 8,0 % dans un environnement inconnu et à 4,6 % sous une condition temporelle différente — ce qui souligne le besoin d'une SCD généralisable et d'un benchmark. Dans cette étude, nous proposons le Cadre de Détection de Changement de Scène Généralisable (GeSCF), qui aborde les performances dans des domaines inconnus et la cohérence temporelle — pour répondre à la demande croissante en matière de SCD. Notre méthode utilise le modèle Segment Anything Model (SAM) pré-entraîné de manière zero-shot. Pour cela, nous avons conçu la Génération Initiale de Masques Pseudo et l'Appariement de Masques Géométrique-Sémantique — transformant ainsi la segmentation guidée par l'utilisateur et basée sur une seule image en détection de changement de scène pour une paire d'entrées sans guidance. De plus, nous définissons le benchmark de Détection de Changement de Scène Généralisable (GeSCD) accompagné de nouvelles métriques et d'un protocole d'évaluation afin de faciliter la recherche en SCD généralisable. Dans ce processus, nous introduisons le dataset ChangeVPR, une collection d'images paires difficiles avec divers scénarios environnementaux — incluant des cadres urbains, suburbains et ruraux. Des expériences approfondies sur divers datasets montrent que GeSCF réalise une amélioration moyenne des performances de 19,2 % sur les datasets existants en SCD et de 30,0 % sur le dataset ChangeVPR, presque doublant les performances antérieures. Nous croyons que notre travail peut poser les bases solides pour une recherche robuste et généralisable en SCD.