Attention spatiale-sémantique profonde pour la recherche d’images basée sur des croquis à granularité fine

Les croquis humains se distinguent par leur capacité à capturer à la fois la topologie spatiale d’un objet visuel et ses détails d’apparence subtils. Le recouvrement d’images basé sur des croquis à grain fin (FG-SBIR, Fine-Grained Sketch-Based Image Retrieval) exploite précisément ces caractéristiques fines des croquis pour réaliser une recherche d’instances photographiques à un niveau très précis. Toutefois, les croquis humains sont souvent très abstraits et iconiques, entraînant des désalignements importants avec les photos candidates, ce qui rend difficile la correspondance des détails visuels subtils. Les approches actuelles de FG-SBIR se concentrent uniquement sur un alignement global grossier grâce à un apprentissage profond de représentations à travers des domaines différents, tout en ignorant explicitement les détails fins et leur contexte spatial. Dans cet article, nous proposons un nouveau modèle profond de FG-SBIR qui se distingue notablement des modèles existants par trois aspects : (1) il est sensible au positionnement spatial, grâce à l’introduction d’un module d’attention sensible à la position spatiale des détails visuels ; (2) il combine des informations sémantiques grossières et fines via un bloc de fusion par connexion directe (shortcut connection fusion) ; et (3) il modélise les corrélations entre caractéristiques et est robuste aux désalignements entre les caractéristiques extraites dans les deux domaines, en introduisant une nouvelle fonction d’énergie d’ordre supérieur apprenable (HOLEF, Higher Order Learnable Energy Function) comme fonction de perte. Des expériences étendues montrent que le modèle profond spatial-sémantique proposé surpasse significativement les états de l’art.