Attention Causale
L'attention causale (CATT) est un mécanisme d'attention innovant qui améliore l'interprétabilité et les performances du modèle en incorporant l'inférence causale, en particulier dans les tâches de vision-langage. Ce mécanisme a été proposé par des chercheurs de l’Université technologique de Nanyang et de l’Université Monash en Australie en 2021.Attention causale pour les tâches vision-langage".
L'idée centrale de l'attention causale est d'utiliser le « critère de la porte d'entrée » dans l'inférence causale pour résoudre le problème de la fausse corrélation dans les données d'entraînement. Dans les mécanismes traditionnels d’auto-attention, en raison du manque de supervision, les pondérations d’attention peuvent être affectées par un biais de données, ce qui rend le modèle trompeur lors du raisonnement. Par exemple, dans une tâche de description d'image, s'il y a plus de scènes de « personnes à cheval » que de « personnes conduisant des calèches » dans les données d'apprentissage, le modèle peut associer par erreur l'action de « monter à cheval » à « personnes » et à « chevaux » et ignorer l'existence de « calèches ».
Pour résoudre ce problème, les chercheurs ont proposé le mécanisme d'attention causale, qui identifie et renforce les effets causaux en :
- Attention dans l'échantillon (IS-ATT): Effectuez un calcul d'attention dans un seul échantillon pour éviter les interférences avec d'autres échantillons.
- Attention à l'échantillon croisé (CS-ATT):Introduisez les informations d’autres échantillons dans le calcul de l’attention de l’échantillon actuel, en imitant l’effet de l’intervention causale.
Ce mécanisme peut être utilisé comme module enfichable pour remplacer les mécanismes d'auto-attention existants, tels que le module d'attention dans Transformer. Les résultats expérimentaux montrent que l’attention causale peut améliorer considérablement les performances du modèle sur des tâches telles que la description d’images et la réponse visuelle aux questions.