DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple
DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple
Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

Résumé
Attribuer le comportement des modèles Transformer aux calculs internes constitue un enjeu central en interprétabilité mécaniste. Nous introduisons DePass, un cadre unifié pour l’attribution de caractéristiques fondé sur une seule passe forward décomposée. DePass décompose les états cachés en composantes additives personnalisées, puis les propage tout en maintenant fixes les scores d’attention et les activations du MLP. Ce procédé permet d’obtenir une attribution fidèle et à très fine échelle, sans nécessiter d’entraînement auxiliaire. Nous validons DePass sur des tâches d’attribution à l’échelle des tokens, des composants du modèle et des sous-espaces, démontrant ainsi son efficacité et sa fidélité. Nos expériences mettent en évidence son potentiel à attribuer le flux d’information entre des composants arbitraires d’un modèle Transformer. Nous espérons que DePass deviendra un outil fondamental pour des applications plus larges en interprétabilité.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.