Transformer und Aufmerksamkeit sind nur komplexe Additionsmaschinen.
Transformers und Aufmerksamkeit sind nur komplexe Additionsmaschinen. Dies ist ein neuer Bereich im Bereich Künstliche Intelligenz, der sich darauf konzentriert, die internen Mechanismen und Darstellungen von neuronalen Netzwerken zu verstehen, indem sie umgekehrt analysiert werden. Ziel ist es, diese in menschenverständliche Algorithmen und Konzepte zu übersetzen. Im Gegensatz zu traditionellen Erklärungstechniken wie SHAP und LIME, die sich auf Merkmale konzentrieren, betrachtet mechanistische Interpretation die Prozesse auf einer granularen Ebene, also wie bestimmte Merkmale von Neuronen in verschiedenen Schichten verarbeitet werden und wie sich diese Verarbeitung über die Schichten hinweg verändert. SHAP (SHapley Additive exPlanations) berechnet die Beiträge jedes Merkmals zur Vorhersage eines Modells, sowohl lokal als auch global, während LIME (Local Interpretable Model-agnostic Explanations) sich auf einzelne Vorhersagepaare konzentriert und diese durch Störungen des Eingangssignals approximiert. Beide Methoden beantworten die Frage, welches Merkmal den größten Einfluss auf das Ergebnis hat. Mechanistische Interpretation hingegen ermittelt, welche Neuronen für welche Merkmale aktiviert werden und wie diese Merkmale sich im Netzwerk verändern und das Ergebnis beeinflussen. Da Erklärbarkeit bei tieferen Netzwerken ein großes Problem darstellt, konzentriert sich diese Sub-Disziplin vor allem auf Modelle wie Transformer. Ein besonderer Aspekt ist die Multi-Head-Aufmerksamkeit, die in der mechanistischen Interpretation anders betrachtet wird. Anstatt die Aufmerksamkeitsausgaben zu verketten, wird hier die Multiplikation „innerhalb“ der Head-Module durchgeführt, wobei die Form der Gewichtsmatrix verändert wird. Stattdessen wird die Summe über alle Heads berechnet, was mathematisch äquivalent zur traditionellen Methode ist. Die Transformer-Architektur beginnt mit der Eingabe eines Satzes, der in One-Hot-Codierung vorliegt. Dieser wird mit einer lernbaren Embedding-Matrix multipliziert, um die Embeddings zu erhalten. Anschließend werden Positionsembeddings hinzugefügt, und die Embeddings werden in Q, K und V kopiert. Jeder Head wird durch eine lineare Transformation verarbeitet, wobei die Merkmale in Untermatrizen aufgeteilt werden. Danach wird die Aufmerksamkeitsberechnung durchgeführt, bei der Q mit K transponiert und mit V multipliziert wird. Die Ergebnisse der Heads werden dann zusammengefasst und mit einer weiteren linearen Projektion verarbeitet. Mechanistische Interpretation zeigt, dass Multi-Head-Aufmerksamkeit mathematisch äquivalent zu einer Additionsoperation ist. Die Gewichtsmatrizen in der mechanistischen Perspektive sind nur Teil der traditionellen Gewichte und ermöglichen es, die Merkmale durch die Schichten zu verfolgen. Dies eröffnet neue Möglichkeiten, wie beispielsweise „Circuit Tracing“, bei dem Merkmale über die Schichten hinweg als Additionen verfolgt werden. Evaluation: Die mechanistische Interpretation erweitert das Verständnis von Transformer-Modellen und ermöglicht tiefere Einblicke in ihre Funktionsweise. Forscher wie Chris Olah und die Team von the Alignment Research Center arbeiten an solchen Ansätzen, um die Modelle transparenter zu machen. Unternehmen wie DeepMind und OpenAI setzen diese Methoden ein, um die Sicherheit und Effizienz ihrer KI-Systeme zu verbessern. Die Idee, Aufmerksamkeit als Additionsprozess zu verstehen, hat das Potential, zukünftige Forschung in der KI-Interpretierbarkeit zu revolutionieren.