Réexamen du codage des séries temporelles d'images satellitaires

L’apprentissage de représentations pour les séries temporelles d’images satellitaires (SITS) est complexe en raison de la haute résolution spatiotemporal, des instants d’acquisition irréguliers et des interactions spatiotemporelles complexes. Ces défis ont conduit au développement d’architectures spécialisées de réseaux neuronaux dédiées à l’analyse des SITS. Bien que des résultats prometteurs aient été obtenus par des chercheurs pionniers dans ce domaine, le transfert des avancées récentes ou des paradigmes établis provenant de la vision par ordinateur (CV) vers les SITS reste particulièrement difficile, en raison du cadre actuel d’apprentissage de représentations sous-optimal. Dans cet article, nous proposons une nouvelle perspective sur le traitement des SITS, en les modélisant comme un problème direct de prédiction d’ensemble, inspirée de la tendance récente d’utilisation de décodeurs transformer basés sur des requêtes afin d’optimiser les pipelines de détection d’objets ou de segmentation d’images. Nous introduisons également une décomposition explicite du processus d’apprentissage de représentations des SITS en trois étapes clairement définies : collecter-mettre à jour-distribuer, une approche à la fois efficace sur le plan computationnel et adaptée aux observations satellitaires temporelles irrégulières et asynchrones. Grâce à cette reformulation originale, le modèle d’apprentissage temporel proposé, initialement pré-entraîné sur un format efficace en ressources basé sur des ensembles de pixels puis finement ajusté sur des tâches de prédiction dense, atteint de nouveaux records d’état de l’art (SOTA) sur le jeu de données de référence PASTIS. En particulier, la séparation nette entre les composantes temporelles et spatiales dans la chaîne de traitement de segmentation sémantique/panoptique des SITS nous permet d’exploiter les dernières avancées de la vision par ordinateur, telles que l’architecture universelle de segmentation d’images, conduisant à une amélioration significative de 2,5 points en mIoU et de 8,8 points en PQ par rapport aux meilleurs résultats publiés jusqu’à présent.