HyperAIHyperAI
il y a 2 mois

MTP : Amélioration du Modèle Fondamental de Télédétection par la Préformation Multitâche

Di Wang; Jing Zhang; Minqiang Xu; Lin Liu; Dongsheng Wang; Erzhong Gao; Chengxi Han; Haonan Guo; Bo Du; Dacheng Tao; Liangpei Zhang
MTP : Amélioration du Modèle Fondamental de Télédétection par la Préformation Multitâche
Résumé

Les modèles de fondation ont redessiné le paysage de la Télédétection (RS) en améliorant diverses tâches d'interprétation d'images. Le préentraînement est un sujet de recherche actif, englobant des méthodes d'apprentissage supervisé et non supervisé pour initialiser efficacement les poids du modèle. Cependant, le transfert des modèles préentraînés vers des tâches en aval peut rencontrer des disparités de tâche en raison de leur formulation du préentraînement comme des tâches de classification d'images ou de discrimination d'objets. Dans cette étude, nous explorons le paradigme du Préentraînement Multi-Tâche (MTP) pour les modèles de fondation en télédétection afin de résoudre ce problème. En utilisant une architecture avec un encodeur partagé et des décodeurs spécifiques à chaque tâche, nous effectuons un préentraînement supervisé multi-tâche sur l'ensemble de données SAMRS, couvrant la segmentation sémantique, la segmentation d'instances et la détection d'objets rotatifs. Le MTP soutient à la fois les réseaux neuronaux convolutifs et les modèles transformateurs visuels dotés de plus de 300 millions de paramètres. Les modèles préentraînés sont affinés sur diverses tâches en aval en télédétection, telles que la classification des scènes, la détection d'objets horizontaux et rotatifs, la segmentation sémantique et la détection de changements. Des expériences approfondies menées sur 14 ensembles de données montrent la supériorité de nos modèles par rapport aux modèles existants similaires en taille et leurs performances compétitives comparées aux modèles d'avant-garde plus volumineux, validant ainsi l'efficacité du MTP.