Command Palette
Search for a command to run...
DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf
DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf
Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou
Zusammenfassung
Die Zuordnung des Verhaltens von Transformer-Modellen zu internen Berechnungen stellt eine zentrale Herausforderung in der mechanistischen Interpretierbarkeit dar. Wir stellen DePass vor, einen einheitlichen Rahmen für die Merkmalszuordnung, der auf einem einzigen, zerlegten Vorwärtsdurchlauf basiert. DePass zerlegt die versteckten Zustände in maßgeschneiderte additive Komponenten und propagiert diese unter Beibehaltung fester Aufmerksamkeitswerte und MLP-Aktivierungen. Die Methode erreicht eine treue, fein granulierte Zuordnung, ohne zusätzliche Trainingsphasen zu erfordern. Wir validieren DePass anhand von Aufgaben zur Merkmalszuordnung auf Token-Ebene, Modellkomponenten-Ebene und Unterraum-Ebene und zeigen so dessen Wirksamkeit und Treue. Unsere Experimente unterstreichen das Potenzial von DePass, Informationsflüsse zwischen beliebigen Komponenten eines Transformer-Modells zuzuordnen. Wir hoffen, dass DePass als grundlegendes Werkzeug für breitere Anwendungen in der Interpretierbarkeit dient.