XAI für Transformers: Bessere Erklärungen durch konservative Propagation

Transformers sind zu einem zentralen Werkzeug im Bereich des maschinellen Lernens geworden und finden vielfältige Anwendungen. Dies erfordert die Entwicklung zuverlässiger Methoden zur Erhöhung ihrer Transparenz. Mehrere Interpretierbarkeitsansätze, die häufig auf Gradienteninformationen basieren, wurden vorgeschlagen. Wir zeigen, dass der Gradient in einem Transformer nur lokal die Funktion widerspiegelt und daher nicht zuverlässig die Beiträge der Eingabefeatures zur Vorhersage identifizieren kann. Wir identifizieren die Aufmerksamkeitsköpfe (Attention Heads) und LayerNorm als Hauptursachen für solche unzuverlässigen Erklärungen und schlagen eine stabileren Methode zur Propagation durch diese Schichten vor. Unser Ansatz kann als eine sinnvolle Erweiterung der etablierten LRP-Methode auf Transformers angesehen werden und zeigt sowohl theoretisch als auch empirisch, dass er die Schwächen eines einfachen gradientenbasierten Ansatzes überwindet und eine state-of-the-art Erklärungsleistung auf einer breiten Palette von Transformer-Modellen und Datensätzen erzielt.