Apprentissage par transfert harmonisé et alignement de modalités pour une télédétection efficace

Avec l’essor de l’apprentissage préalable multimodal (Visual and Language Pretraining, VLP), un nombre croissant de tâches en aval adoptent le paradigme d’un apprentissage préalable suivi d’un ajustement fin (fine-tuning). Bien que ce paradigme ait démontré un potentiel prometteur dans diverses tâches multimodales en aval, son application dans le domaine de l’imagerie satellitaire se heurte à plusieurs obstacles. En particulier, la tendance des représentations de même modalité à se regrouper en clusters nuit à l’efficacité de l’apprentissage transféré. Pour surmonter ce problème, nous revisitons l’objectif de l’apprentissage transféré multimodal pour les tâches en aval sous une perspective unifiée, et repensons le processus d’optimisation à partir de trois objectifs distincts. Nous proposons une méthode intitulée « Harmonized Transfer Learning and Modality Alignment (HarMA) », qui satisfait simultanément les contraintes de tâche, l’alignement entre modalités et l’alignement uniforme à l’intérieur d’une même modalité, tout en minimisant la charge de calcul grâce à un ajustement fin efficace en paramètres. Notamment, sans nécessiter de données externes pour l’entraînement, HarMA atteint des performances de pointe dans deux tâches populaires de recherche multimodale en imagerie satellitaire. Nos expérimentations montrent que HarMA obtient des performances compétitives, voire supérieures, par rapport aux modèles entièrement ajustés, tout en ne nécessitant qu’un nombre minimal de paramètres ajustables. Grâce à sa simplicité, HarMA peut être intégrée à presque tous les modèles existants d’apprentissage préalable multimodal. Nous espérons que cette méthode facilitera l’application efficace des grands modèles à un large éventail de tâches en aval, tout en réduisant de manière significative la consommation de ressources. Le code est disponible à l’adresse suivante : https://github.com/seekerhuang/HarMA.