Localisation d'objets faiblement supervisée via Transformers avec calibration spatiale implicite

La localisation d'objets faiblement supervisée (WSOL), qui vise à localiser des objets en utilisant uniquement des étiquettes au niveau de l'image, a attiré beaucoup d'attention en raison de son faible coût d'annotation dans les applications réelles. Des études récentes exploitent l'avantage de l'auto-attention dans les Transformers visuels pour modéliser les dépendances à longue portée et réactiver les régions sémantiques, dans le but d'éviter l'activation partielle dans la cartographie d'activation de classe (CAM) traditionnelle. Cependant, la modélisation à longue portée dans les Transformers néglige la cohérence spatiale inhérente de l'objet, ce qui diffuse généralement les régions sémantiquement conscientes loin des contours de l'objet, rendant les résultats de localisation considérablement plus grands ou plus petits. Pour résoudre ce problème, nous introduisons un module de calibration spatiale (SCM) simple mais efficace pour une WSOL précise, intégrant les similarités sémantiques des jetons de patch et leurs relations spatiales dans un modèle de diffusion unifié. Plus précisément, nous introduisons un paramètre apprenable pour ajuster dynamiquement les corrélations sémantiques et les intensités du contexte spatial afin de propager efficacement l'information. En pratique, le SCM est conçu comme un module externe du Transformer et peut être supprimé lors de l'inférence pour réduire le coût de calcul. La capacité de localisation sensible aux objets est implicitement intégrée dans le codage du Transformer grâce à l'optimisation lors de la phase d'apprentissage. Elle permet aux cartes d'attention générées de capturer des contours d'objets plus nets et de filtrer les zones du fond non pertinentes à l'objet. De nombreux résultats expérimentaux montrent l'efficacité de la méthode proposée, qui surpasse significativement sa contrepartie TS-CAM sur les benchmarks CUB-200 et ImageNet-1K. Le code est disponible sur https://github.com/164140757/SCM.