DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf
DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf
Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

Abstract
Die Zuordnung des Verhaltens von Transformer-Modellen zu internen Berechnungen stellt eine zentrale Herausforderung in der mechanistischen Interpretierbarkeit dar. Wir stellen DePass vor, einen einheitlichen Rahmen für die Merkmalszuordnung, der auf einem einzigen, zerlegten Vorwärtsdurchlauf basiert. DePass zerlegt die versteckten Zustände in maßgeschneiderte additive Komponenten und propagiert diese unter Beibehaltung fester Aufmerksamkeitswerte und MLP-Aktivierungen. Die Methode erreicht eine treue, fein granulierte Zuordnung, ohne zusätzliche Trainingsphasen zu erfordern. Wir validieren DePass anhand von Aufgaben zur Merkmalszuordnung auf Token-Ebene, Modellkomponenten-Ebene und Unterraum-Ebene und zeigen so dessen Wirksamkeit und Treue. Unsere Experimente unterstreichen das Potenzial von DePass, Informationsflüsse zwischen beliebigen Komponenten eines Transformer-Modells zuzuordnen. Wir hoffen, dass DePass als grundlegendes Werkzeug für breitere Anwendungen in der Interpretierbarkeit dient.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.