Attention compensée par la causalité pour la reconnaissance visuelle biaisée contextuelle

L’attention visuelle ne capture pas toujours la représentation d’objet essentielle souhaitée pour des prédictions robustes. Les modules d’attention ont tendance à mettre en évidence non seulement l’objet cible, mais aussi le contexte couramment associé, qu’ils jugent utile durant l’apprentissage. Ce problème trouve sa racine dans l’effet de confusion provoqué par le contexte, entraînant des causalités erronées entre les objets et les prédictions, effet qui est aggravé par l’attention visuelle. Dans cet article, afin d’apprendre des caractéristiques d’objets causales robustes face aux biais contextuels, nous proposons un nouveau module d’attention nommé Interventional Dual Attention (IDA) pour la reconnaissance visuelle. Plus précisément, IDA adopte deux couches d’attention accompagnées d’interventions par échantillonnage multiples, permettant de compenser l’attention face au contexte perturbateur. Notons que notre méthode est indépendante du modèle (model-agnostic), et peut donc être intégrée à diverses architectures de base (backbones). Des expériences étendues montrent que notre modèle obtient des améliorations significatives en classification et détection, avec une charge computationnelle réduite. En particulier, nous atteignons des résultats de pointe dans la classification multi-étiquettes sur MS-COCO et PASCAL-VOC.