Alignement doux d'informations global-local pour la recherche d'images et de textes multimodaux à distance en télédétection
La recherche d’images satellites à partir de descriptions textuelles (CMRSITR, Cross-modal remote-sensing image–text retrieval) est une tâche particulièrement exigeante, visant à retrouver des images satellites cibles à partir de descriptions textuelles. Toutefois, l’écart modal entre les textes et les images satellites pose un défi majeur. Les images satellites contiennent en effet plusieurs objets et des arrière-plans complexes, ce qui nécessite l’extraction à la fois d’informations globales et locales (GaLR) pour une CMRSITR efficace. Les approches existantes se concentrent principalement sur les caractéristiques locales des images tout en négligeant les caractéristiques locales des textes ainsi que leurs correspondances. Ces méthodes fusionnent généralement les caractéristiques globales et locales des images, puis les alignent avec les caractéristiques globales des textes. Elles peinent toutefois à éliminer l’influence des arrière-plans encombrés et risquent de passer à côté d’objets cruciaux. Pour surmonter ces limites, nous proposons un cadre novateur pour la CMRSITR basé sur une architecture transformer, exploitant une alignement doux d’informations globales et locales (GLISA) afin d’améliorer les performances de recherche. Notre cadre intègre un module d’extraction d’informations globales d’images, qui capture les caractéristiques sémantiques globales des paires image-texte et représente efficacement les relations entre plusieurs objets présents dans les images satellites. Par ailleurs, nous introduisons un module d’extraction adaptative d’informations locales (ALIE), qui extrait de manière adaptative des indices locaux discriminants tant des images satellites que des textes, tout en alignant les informations fines correspondantes. Pour atténuer les ambiguïtés sémantiques lors de l’alignement des caractéristiques locales, nous concevons un module d’alignement doux d’informations locales (LISA). Dans des évaluations comparatives menées sur deux jeux de données publiques de CMRSITR, notre méthode proposée atteint des résultats de pointe, dépassant de manière significative non seulement les méthodes traditionnelles de recherche multimodale, mais aussi d’autres approches basées sur le pré-entraînement contrastif langage-image (CLIP).