HyperAIHyperAI

Command Palette

Search for a command to run...

DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple

Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

Résumé

Attribuer le comportement des modèles Transformer aux calculs internes constitue un enjeu central en interprétabilité mécaniste. Nous introduisons DePass, un cadre unifié pour l’attribution de caractéristiques fondé sur une seule passe forward décomposée. DePass décompose les états cachés en composantes additives personnalisées, puis les propage tout en maintenant fixes les scores d’attention et les activations du MLP. Ce procédé permet d’obtenir une attribution fidèle et à très fine échelle, sans nécessiter d’entraînement auxiliaire. Nous validons DePass sur des tâches d’attribution à l’échelle des tokens, des composants du modèle et des sous-espaces, démontrant ainsi son efficacité et sa fidélité. Nos expériences mettent en évidence son potentiel à attribuer le flux d’information entre des composants arbitraires d’un modèle Transformer. Nous espérons que DePass deviendra un outil fondamental pour des applications plus larges en interprétabilité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp