Command Palette
Search for a command to run...
Détection Robuste de Changement de Scène Utilisant des Modèles Fondamentaux Visuels et des Mécanismes d'Attention Croisée
Détection Robuste de Changement de Scène Utilisant des Modèles Fondamentaux Visuels et des Mécanismes d'Attention Croisée
Chun-Jung Lin; Sourav Garg; Tat-Jun Chin; Feras Dayoub
Résumé
Nous présentons une nouvelle méthode de détection de changement de scène qui exploite les capacités robustes d'extraction de caractéristiques d'un modèle fondamental visuel, DINOv2, et intègre l'attention croisée sur l'image entière pour relever des défis clés tels que la variation d'éclairage, les variations saisonnières et les différences de point de vue. Pour apprendre efficacement les correspondances et les non-correspondances entre un couple d'images dans le cadre de la détection de changements, nous proposons : a) de « figer » le backbone afin de conserver la généralité des caractéristiques fondamentales denses, et b) d'utiliser l'attention croisée sur l'« image entière » pour mieux traiter les variations de point de vue entre le couple d'images. Nous évaluons notre approche sur deux ensembles de données de référence, VL-CMU-CD et PSCD, ainsi que sur leurs versions avec variations de point de vue. Nos expériences montrent des améliorations significatives du score F1, particulièrement dans les scénarios impliquant des changements géométriques entre les paires d'images. Les résultats indiquent que notre méthode possède des capacités supérieures de généralisation par rapport aux approches actuelles state-of-the-art, montrant une robustesse contre les variations photométriques et géométriques ainsi qu'une meilleure généralisation globale lorsqu'elle est affinée pour s'adapter à de nouveaux environnements. Des études d'ablation détaillées valident davantage la contribution de chaque composant dans notre architecture. Notre code source est disponible à l'adresse suivante : https://github.com/ChadLin9596/Robust-Scene-Change-Detection.