HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 5 Tagen

DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf

Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf

Abstract

Die Zuordnung des Verhaltens von Transformer-Modellen zu internen Berechnungen stellt eine zentrale Herausforderung in der mechanistischen Interpretierbarkeit dar. Wir stellen DePass vor, einen einheitlichen Rahmen für die Merkmalszuordnung, der auf einem einzigen, zerlegten Vorwärtsdurchlauf basiert. DePass zerlegt die versteckten Zustände in maßgeschneiderte additive Komponenten und propagiert diese unter Beibehaltung fester Aufmerksamkeitswerte und MLP-Aktivierungen. Die Methode erreicht eine treue, fein granulierte Zuordnung, ohne zusätzliche Trainingsphasen zu erfordern. Wir validieren DePass anhand von Aufgaben zur Merkmalszuordnung auf Token-Ebene, Modellkomponenten-Ebene und Unterraum-Ebene und zeigen so dessen Wirksamkeit und Treue. Unsere Experimente unterstreichen das Potenzial von DePass, Informationsflüsse zwischen beliebigen Komponenten eines Transformer-Modells zuzuordnen. Wir hoffen, dass DePass als grundlegendes Werkzeug für breitere Anwendungen in der Interpretierbarkeit dient.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DePass: Einheitliche Merkmalszuweisung durch einfachen zerlegten Vorwärtsdurchlauf | Forschungsarbeiten | HyperAI