HyperAIHyperAI

Command Palette

Search for a command to run...

Une étude empirique du pré entraînement en télédétection

Di Wang Jing Zhang Bo Du Gui-Song Xia Dacheng Tao

Résumé

L'apprentissage profond (deep learning) a largement redessiné la recherche en télédétection (remote sensing, RS) pour la compréhension des images aériennes et a connu un grand succès. Néanmoins, la plupart des modèles profonds existants sont initialisés avec les poids pré-entraînés sur ImageNet. Étant donné que les images naturelles présentent inévitablement un écart de domaine important par rapport aux images aériennes, cela pourrait limiter les performances d'ajustement fin (fine-tuning) sur les tâches en aval liées aux scènes aériennes. Cette problématique nous motive à mener une étude empirique de l'entraînement préalable en télédétection (Remote Sensing Pretraining, RSP) sur des images aériennes. À cette fin, nous entraînons différentes architectures de réseaux neuronaux à partir de zéro, grâce au plus grand ensemble de données de reconnaissance de scènes en télédétection actuellement disponible -- MillionAID, afin d'obtenir une série de troncs communs pré-entraînés en télédétection (RS pretrained backbones), comprenant à la fois des réseaux neuronaux convolutifs (Convolutional Neural Networks, CNN) et des transformateurs visuels comme Swin et ViTAE, qui ont montré des performances prometteuses dans les tâches de vision par ordinateur. Ensuite, nous examinons l'impact du RSP sur des tâches représentatives en aval telles que la reconnaissance de scènes, la segmentation sémantique, la détection d'objets et la détection de changements, en utilisant ces troncs communs CNN et transformateurs visuels. L'étude empirique montre que le RSP peut aider à améliorer significativement les performances dans les tâches de reconnaissance de scènes et dans la perception des sémantiques liées à la télédétection telles que « Pont » et « Avion ». Nous constatons également que, bien que le RSP atténue les disparités de données entre l'entraînement préalable traditionnel sur ImageNet et les images en télédétection, il peut encore souffrir de disparités entre les tâches, où les tâches en aval nécessitent des représentations différentes de celles requises pour la reconnaissance de scènes. Ces résultats appellent des efforts supplémentaires en matière de recherche sur les grands ensembles de données d'entraînement préalable et sur les méthodes efficaces d'entraînement préalable. Les codes source et les modèles pré-entraînés seront mis à disposition sur https://github.com/ViTAE-Transformer/ViTAE-Transformer-Remote-Sensing.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp