HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 5 jours

DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple

Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple

Résumé

Attribuer le comportement des modèles Transformer aux calculs internes constitue un enjeu central en interprétabilité mécaniste. Nous introduisons DePass, un cadre unifié pour l’attribution de caractéristiques fondé sur une seule passe forward décomposée. DePass décompose les états cachés en composantes additives personnalisées, puis les propage tout en maintenant fixes les scores d’attention et les activations du MLP. Ce procédé permet d’obtenir une attribution fidèle et à très fine échelle, sans nécessiter d’entraînement auxiliaire. Nous validons DePass sur des tâches d’attribution à l’échelle des tokens, des composants du modèle et des sous-espaces, démontrant ainsi son efficacité et sa fidélité. Nos expériences mettent en évidence son potentiel à attribuer le flux d’information entre des composants arbitraires d’un modèle Transformer. Nous espérons que DePass deviendra un outil fondamental pour des applications plus larges en interprétabilité.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DePass : Attribution unifiée des caractéristiques par une passe avant décomposée simple | Articles de recherche | HyperAI