il y a 17 jours

XAI pour les Transformers : des explications améliorées grâce à la propagation conservative

Ameen Ali, Thomas Schnake, Oliver Eberle, Grégoire Montavon, Klaus-Robert Müller, Lior Wolf

Résumé

Les Transformers sont devenus un outil fondamental en apprentissage automatique, avec une multitude d’applications. Cela rend nécessaire le développement de méthodes fiables pour améliorer leur transparence. De nombreuses méthodes d’interprétabilité, souvent basées sur des informations de gradient, ont été proposées. Nous montrons que le gradient dans un Transformer ne reflète la fonction que localement, et par conséquent échoue à identifier de manière fiable la contribution des caractéristiques d’entrée à la prédiction. Nous identifions les têtes d’attention et la normalisation par couche (LayerNorm) comme principales causes d’explications peu fiables, et proposons une méthode plus stable pour la propagation à travers ces couches. Notre approche, qui peut être vue comme une extension appropriée de la méthode bien établie LRP aux Transformers, est démontrée théoriquement et empiriquement comme étant capable de surmonter les limites d’une approche basée simplement sur le gradient, tout en atteignant des performances d’explication de pointe sur une large gamme de modèles Transformers et de jeux de données.