HyperAIHyperAI

Command Palette

Search for a command to run...

Alignement doux d'informations global-local pour la recherche d'images et de textes multimodaux à distance en télédétection

Qian Wu Jianting Zhang Yafei Lv Zaidao Wen Gang Hu

Résumé

La recherche d’images satellites à partir de descriptions textuelles (CMRSITR, Cross-modal remote-sensing image–text retrieval) est une tâche particulièrement exigeante, visant à retrouver des images satellites cibles à partir de descriptions textuelles. Toutefois, l’écart modal entre les textes et les images satellites pose un défi majeur. Les images satellites contiennent en effet plusieurs objets et des arrière-plans complexes, ce qui nécessite l’extraction à la fois d’informations globales et locales (GaLR) pour une CMRSITR efficace. Les approches existantes se concentrent principalement sur les caractéristiques locales des images tout en négligeant les caractéristiques locales des textes ainsi que leurs correspondances. Ces méthodes fusionnent généralement les caractéristiques globales et locales des images, puis les alignent avec les caractéristiques globales des textes. Elles peinent toutefois à éliminer l’influence des arrière-plans encombrés et risquent de passer à côté d’objets cruciaux. Pour surmonter ces limites, nous proposons un cadre novateur pour la CMRSITR basé sur une architecture transformer, exploitant une alignement doux d’informations globales et locales (GLISA) afin d’améliorer les performances de recherche. Notre cadre intègre un module d’extraction d’informations globales d’images, qui capture les caractéristiques sémantiques globales des paires image-texte et représente efficacement les relations entre plusieurs objets présents dans les images satellites. Par ailleurs, nous introduisons un module d’extraction adaptative d’informations locales (ALIE), qui extrait de manière adaptative des indices locaux discriminants tant des images satellites que des textes, tout en alignant les informations fines correspondantes. Pour atténuer les ambiguïtés sémantiques lors de l’alignement des caractéristiques locales, nous concevons un module d’alignement doux d’informations locales (LISA). Dans des évaluations comparatives menées sur deux jeux de données publiques de CMRSITR, notre méthode proposée atteint des résultats de pointe, dépassant de manière significative non seulement les méthodes traditionnelles de recherche multimodale, mais aussi d’autres approches basées sur le pré-entraînement contrastif langage-image (CLIP).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp