Lokalisiert dreiphasigen Faktenabruf in Gemma-2B und 12B
Eine neuere Untersuchung der mechanischen Interpretierbarkeit, getauft als BizzaroWorld, analysiert systematisch, wie die Gemma-Modellfamilie Gemma-2B und Gemma-12B-IT faktisches Wissen intern speichert und wieder aufruft. Das Forschungsteam nutzte Aktivierungs-Patching an 60 sauberen und korrupten Prompt-Paaren, die 20 verschiedene Wissensdomänen abdecken, um kausale Zusammenhänge im neuronalen Netzwerk zu isolieren. Die Methodik orientiert sich an früheren Arbeiten zur Entitätsverfolgung in LLaMA-Modellen und setzt auf Logit-Differenzen als präzises Skalensignal, um den kausalen Einfluss einzelner Netzwerkkomponenten zu messen. Die Ergebnisse offenbaren eine konsistente, dreiphasige Schaltung zur faktischen Wissensabfrage, die über beide Modellgrößen hinweg identisch strukturiert ist. In Phase eins, der Speicherung, werden Fakten als Richtungen im Residual-Stream an der Position des Entitätstokens kodiert. Dies geschieht in den frühen Schichten des Transformators, wobei der Residual-Stream mit einem vierzigfachen Einfluss auf die Aufmerksamkeits- und MLP-Ausgaben kausal dominiert. Phase zwei, das Routing, verlagert das Signal von der Entitäts- zur Vorhersageposition. Dies erfolgt dezentral über ein Kollektiv von Aufmerksamkeitsköpfen; keine einzelne Komponente übernimmt die Hauptverantwortung. In Phase drei, der Ausgabe, wird die Antwort in den letzten Schichten abgerufen, nicht berechnet. Die späten Transformatorblöcke wirken dabei als Durchlass, was bestätigt, dass das Wissen bereits vor dem finalen Token vollständig kodiert ist. Der Vergleich zwischen dem 2B- und dem 12B-Modell bestätigt die Skalierbarkeit des Musters. Bei der größeren Variante verlagert sich die Speicherphase proportioniert auf tiefere Schichten, während die Routing-Phase noch stärker verteilt ist. Auffällig ist zudem ein methodisches Problem bei modellübergreifenden Tests: Unterschiedliche Tokenizer-Implementierungen, insbesondere bei SentencePiece gegenüber Tiktoken, führen zu einem Daten-Drift. Einzelne Tokens werden je nach Modellgröße unterschiedlich segmentiert, was Prompt-Paare ungültig machen kann. Die Autoren betonen, dass krossmodulare Analysen stets eine systematische Tokenizer-Validierung erfordern, um solche Verzerrungen auszuschließen. Trotz der robusten Ergebnisse stieß die Studie auf praktische Limitationen, darunter begrenzte Rechenkapazitäten, die erweiterte Experimente mit LLaMa-70B oder quantisierten Varianten vorübergehend aussetzten. Als logischer nächster Schritt wird die Anwendung von Path-Patching vorgeschlagen, um die Kommunikation zwischen Komponenten auf Graphen-Ebene zu isolieren, sowie die Kombination mit Sparse Autoencodern zur Entschlüsselung der Residual-Stream-Dynamik. Diese Forschung etabliert eine fundierte Grundlage für die gezielte Intervention bei Wissensfehlern in Large Language Models. Die präzise Lokalisierung interner Schaltungen ist die Voraussetzung, um Modellversagen proaktiv zu adressieren und die Transparenz komplexer Spracharchitekturen nachhaltig zu erhöhen. Zukünftige Arbeiten sollen das Framework auf LLaMA-Varianten und nicht-autoregressive Diffusionsmodelle übertragen, um domänenübergreifende Generalisierbarkeit zu bestätigen.
