AI-Interpretierbarkeit: Evolution statt Stille Analyse
Naomi Saphra, Forschungsfellow am Kempner-Institut der Harvard University und künftige Professorin an der Boston University ab 2026, setzt sich dafür ein, die Funktionsweise von KI-Modellen – insbesondere großen Sprachmodellen wie ChatGPT – nicht nur nach deren Fertigstellung zu analysieren, sondern im Kontext ihres Lernprozesses zu verstehen. Ihre zentrale These: Um KI wirklich zu verstehen, muss man nicht nur „was“ sie tut, sondern vor allem „warum“ sie es tut. Dazu greift sie auf die Analogie aus der Evolutionsbiologie zurück: So wie nichts in der Biologie ohne das Licht der Evolution verständlich ist, kann auch nichts in der KI ohne die Berücksichtigung des Trainingsprozesses, insbesondere des stochastischen Gradientenabstiegs, erklärt werden. Während viele Forscher in der Interpretierbarkeitsszene versuchen, die internen Strukturen von Modellen nach der Fertigstellung zu entschlüsseln – etwa indem sie einzelne Neuronen mit bestimmten Ausgaben verknüpfen –, legt Saphra den Fokus auf die Dynamik während des Trainings. Sie untersucht, wie unterschiedliche Startbedingungen (z. B. zufällige Gewichtsinitialisierungen) zu unterschiedlichen Modellstrukturen und -verhalten führen, und sucht nach kausalen Zusammenhängen, die über reine Korrelation hinausgehen. Ein Beispiel: In einer Studie fanden sie, dass bestimmte interne Strukturen in Masked Language Models vor der Verbesserung der Grammatikkompetenz auftauchten – ein Hinweis darauf, dass die Struktur tatsächlich die Funktion verursacht, nicht umgekehrt. Saphras Ansatz wurde maßgeblich durch ihre persönliche Herausforderung geprägt: Während ihres Doktorats entwickelte sie eine neurologische Erkrankung, die ihr das Schreiben und Tippen unmöglich machte. Sie musste lernen, Code per Spracherkennung zu verfassen und arbeitete in einer ruhigen Umgebung. Diese Einschränkung zwang sie, sich auf langfristige, weniger „hype-basierte“ Forschungsthemen zu konzentrieren – wie die Trainingsdynamik von Sprachmodellen –, was sich als bahnbrechend erwies. Sie argumentiert, dass ein langsamerer Forschungstempo weniger von Modewellen abhängt und Raum für tiefgründige, originelle Erkenntnisse lässt. Ein zentrales Problem der gängigen Interpretierbarkeitsansätze ist ihre Neigung, korrelative Beobachtungen als kausale Erklärungen zu missverstehen. So können hochspezifische Neuronen in Bildklassifizierungsmodellen – etwa solche, die nur auf Katzen reagieren – irreführend erscheinen. Doch Experimente zeigen: Wenn man solche Neuronen während des Trainings unterbindet, steigt die Leistung sogar. Das deutet darauf hin, dass solche Strukturen nicht notwendig sind, sondern möglicherweise veraltete, hinderliche „Evolutionserbstücke“ sind. Saphra betont daher: Nur durch die Analyse des Trainingsprozesses kann man unterscheiden, was kausal ist und was nur zufällig entstanden ist. Ihre Methode erfordert präzise Begrifflichkeit: Wenn man von „Strukturen“ oder „Funktionen“ spricht, muss man genau definieren, was gemeint ist. Interpretierbarkeit muss selbst interpretierbar sein. Dieser Ansatz könnte entscheidend sein, um KI-Systeme verlässlicher, vorhersehbarer und sicherer zu machen – besonders in kritischen Anwendungen. In der Branche wird Saphras Herangehensweise als wegweisend angesehen, da sie die Grenzen der statischen Modellanalyse überwindet und eine dynamische, kausale Perspektive einfordert. Ihre Arbeit zeigt, dass die Zukunft der KI-Interpretierbarkeit weniger in der Analyse eines „fertigen“ Modells als vielmehr in der Beobachtung seiner Entstehung liegt.
