SiamixFormer : un réseau Siamese entièrement basé sur les transformers avec fusion temporelle pour une détection précise des bâtiments et des changements dans les images de télédétection bitemporales

La détection de bâtiments et la détection de changements à l'aide d'images de télédétection peuvent aider à la planification urbaine et aux opérations de secours. De plus, elles peuvent être utilisées pour évaluer les dommages aux bâtiments après des catastrophes naturelles. Actuellement, la plupart des modèles existants pour la détection de bâtiments n'utilisent qu'une seule image (image pré-catastrophe) pour détecter les bâtiments. Cette approche repose sur l'idée que les images post-catastrophe réduisent les performances du modèle en raison de la présence de bâtiments détruits. Dans cet article, nous proposons un modèle siamois appelé SiamixFormer, qui utilise des images pré- et post-catastrophe comme entrée. Notre modèle dispose de deux encodeurs et d'une architecture de transformateur hiérarchique. La sortie de chaque étape des deux encodeurs est fournie à un transformateur temporel pour la fusion des caractéristiques, où une requête est générée à partir des images pré-catastrophe et (clé, valeur) est générée à partir des images post-catastrophe. A cette fin, les caractéristiques temporelles sont également prises en compte lors de la fusion des caractéristiques. Un autre avantage de l'utilisation de transformateurs temporels dans la fusion des caractéristiques est qu'ils peuvent mieux maintenir les grands champs récepteurs générés par les encodeurs de transformateurs par rapport aux CNNs (Convolutional Neural Networks). Enfin, la sortie du transformateur temporel est transmise à un décodeur MLP (Multilayer Perceptron) simple à chaque étape. Le modèle SiamixFormer a été évalué sur les ensembles de données xBD et WHU pour la détection de bâtiments, ainsi que sur les ensembles de données LEVIR-CD et CDD pour la détection de changements, surpassant ainsi l'état de l'art actuel.