TR-MISR : Super-résolution multi-images basée sur la fusion de caractéristiques avec des Transformers
La super-résolution multi-images (MISR), l'une des voies les plus prometteuses en télédétection, est devenue une technique incontournable sur le marché des satellites. Une séquence d’images acquises par des satellites comporte souvent de nombreuses vues et une longue durée temporelle, ce qui rend l’intégration de plusieurs vues à faible résolution en une seule image haute résolution, riche en détails, un problème particulièrement difficile. Toutefois, la plupart des méthodes de MISR basées sur l’apprentissage profond ne parviennent pas à exploiter pleinement les images multiples. Leurs modules de fusion se révèlent incapables de s’adapter efficacement à des séquences d’images présentant des corrélations temporelles faibles. Pour surmonter ces limitations, nous proposons un nouveau cadre end-to-end, appelé TR-MISR. Il se compose de trois composants : un encodeur basé sur des blocs résiduels, un module de fusion fondé sur un transformateur, et un décodeur reposant sur une convolution de sous-pixels. Plus précisément, en réorganisant les cartes de caractéristiques multiples en vecteurs, le module de fusion peut attribuer une attention dynamique à la même région d’images satellites différentes en même temps. En outre, TR-MISR intègre un vecteur d’embedding apprenable supplémentaire, qui permet de fusionner ces vecteurs afin de restaurer au mieux les détails. Pour la première fois, TR-MISR applique de manière efficace le transformateur aux tâches de MISR, en réduisant notablement la difficulté d’entraînement du transformateur en ignorant les relations spatiales entre les patches d’image. Des expériences étendues menées sur le jeu de données PROBA-V Kelvin démontrent clairement l’efficacité du modèle proposé, offrant ainsi une méthode prometteuse pour l’application des transformateurs à d’autres tâches de vision basse-niveau.