Réduction de la confusion sémantique : réseau d’agrégation conscient du contexte pour la recherche multimodale en télédétection
Récemment, la recherche sur la récupération multimodale à distance par télédétection a suscité un intérêt considérable de la part des chercheurs. Toutefois, la nature particulière des images satellitaires engendre de nombreuses zones de confusion sémantique dans l’espace sémantique, ce qui affecte fortement les performances de récupération. Nous proposons un nouveau réseau d’agrégation sensible aux scènes, appelé SWAN (Scene-aware WaVelet Aggregation Network), afin de réduire cette confusion sémantique en améliorant la capacité de perception des scènes. Dans la représentation visuelle, un module de fusion multiscale visuelle (VMSF) est introduit pour fusionner des caractéristiques visuelles à différentes échelles, servant de squelette de représentation visuelle. Parallèlement, un module de perception fine des scènes (SFGS) est proposé pour établir des associations entre des caractéristiques saillantes à différentes granularités. Une représentation visuelle agrégée sensible aux scènes est ainsi formée à partir des informations visuelles générées par ces deux modules. Dans la représentation textuelle, un module d’amélioration grossière du texte (TCGE) est conçu pour enrichir la sémantique du texte et assurer une meilleure alignement avec l’information visuelle. En outre, compte tenu du fait que la diversité et la différenciation des scènes de télédétection affaiblissent la compréhension globale des scènes, nous introduisons une nouvelle métrique, nommée rappel de scène (scene recall), pour évaluer la perception des scènes via la performance de récupération au niveau de la scène, ce qui permet également de vérifier l’efficacité de notre approche dans la réduction de la confusion sémantique. À travers des comparaisons de performances, des études d’ablation et une analyse visuelle, nous avons validé l’efficacité et la supériorité de notre méthode sur deux jeux de données, RSICD et RSITMD. Le code source est disponible à l’adresse suivante : https://github.com/kinshingpoon/SWAN-pytorch.