Apprentissage par transfert à faible coût en paramètres pour la recherche d’images et de textes en télédétection

Les modèles de pré-entraînement vision-langage (VLP) ont connu une forte popularité ces derniers temps. En les ajustant finement sur des jeux de données spécifiques, des améliorations significatives de performance ont été observées sur diverses tâches. Toutefois, l’ajustement fin complet des modèles VLP consomme une quantité importante de ressources computationnelles et présente un impact environnemental important. En outre, étant donné que les données de télédétection (RS) sont constamment mises à jour, l’ajustement fin complet n’est pas toujours pratique pour les applications réelles. Pour répondre à ce défi, nous étudions dans ce travail une méthode d’apprentissage transféré efficace en paramètres (PETL) afin de transférer de manière efficace et performante les connaissances visuelles-langagères du domaine naturel vers le domaine de télédétection sur la tâche de récupération image-texte. À cette fin, nous apportons les contributions suivantes : 1) Nous proposons un cadre innovant et sophistiqué de PETL pour la tâche de récupération image-texte en télédétection (RSITR), comprenant un modèle pré-entraîné CLIP, un adaptateur multimodal pour la télédétection, et une fonction de perte contrastive hybride multimodale (HMMC) ; 2) Pour traiter le problème de forte similarité intra-modale présente dans les données RS, nous concevons une fonction de perte HMMC simple mais efficace ; 3) Nous fournissons des études empiriques approfondies sur le transfert d’apprentissage efficace en paramètres pour la récupération image-texte en télédétection. Nos résultats démontrent que la méthode proposée est prometteuse et présente un fort potentiel pour les applications pratiques ; 4) Nous établissons une évaluation comparative exhaustive de nombreuses méthodes état-de-l’art de PETL sur la tâche RSITR. Notre modèle ne comporte que 0,16 million de paramètres entraînables, ce qui représente une réduction de 98,9 % par rapport à l’ajustement fin complet, entraînant ainsi des économies substantielles en coûts d’entraînement. En outre, notre performance en récupération dépasse les méthodes traditionnelles de 7 à 13 % et atteint des résultats comparables ou supérieurs à ceux obtenus par l’ajustement fin complet. Ce travail ouvre de nouvelles pistes et fournit des perspectives utiles pour les tâches vision-langage en télédétection.