Une étude empirique du pré entraînement en télédétection

L'apprentissage profond (deep learning) a largement redessiné la recherche en télédétection (remote sensing, RS) pour la compréhension des images aériennes et a connu un grand succès. Néanmoins, la plupart des modèles profonds existants sont initialisés avec les poids pré-entraînés sur ImageNet. Étant donné que les images naturelles présentent inévitablement un écart de domaine important par rapport aux images aériennes, cela pourrait limiter les performances d'ajustement fin (fine-tuning) sur les tâches en aval liées aux scènes aériennes. Cette problématique nous motive à mener une étude empirique de l'entraînement préalable en télédétection (Remote Sensing Pretraining, RSP) sur des images aériennes. À cette fin, nous entraînons différentes architectures de réseaux neuronaux à partir de zéro, grâce au plus grand ensemble de données de reconnaissance de scènes en télédétection actuellement disponible -- MillionAID, afin d'obtenir une série de troncs communs pré-entraînés en télédétection (RS pretrained backbones), comprenant à la fois des réseaux neuronaux convolutifs (Convolutional Neural Networks, CNN) et des transformateurs visuels comme Swin et ViTAE, qui ont montré des performances prometteuses dans les tâches de vision par ordinateur. Ensuite, nous examinons l'impact du RSP sur des tâches représentatives en aval telles que la reconnaissance de scènes, la segmentation sémantique, la détection d'objets et la détection de changements, en utilisant ces troncs communs CNN et transformateurs visuels. L'étude empirique montre que le RSP peut aider à améliorer significativement les performances dans les tâches de reconnaissance de scènes et dans la perception des sémantiques liées à la télédétection telles que « Pont » et « Avion ». Nous constatons également que, bien que le RSP atténue les disparités de données entre l'entraînement préalable traditionnel sur ImageNet et les images en télédétection, il peut encore souffrir de disparités entre les tâches, où les tâches en aval nécessitent des représentations différentes de celles requises pour la reconnaissance de scènes. Ces résultats appellent des efforts supplémentaires en matière de recherche sur les grands ensembles de données d'entraînement préalable et sur les méthodes efficaces d'entraînement préalable. Les codes source et les modèles pré-entraînés seront mis à disposition sur https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.