Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

摘要
将Transformer模型的行为归因于其内部计算,是机制可解释性领域的一个核心挑战。我们提出了DePass,一种基于单次分解前向传播的统一特征归因框架。DePass将隐藏状态分解为可定制的加性成分,并在固定注意力得分和前馈网络(MLP)激活值的前提下进行传播。该方法无需额外训练即可实现忠实且细粒度的特征归因。我们在词元级别、模型组件级别以及子空间级别的归因任务中对DePass进行了验证,充分展示了其有效性与归因忠实性。实验结果表明,DePass具有将Transformer模型中任意组件间信息流动进行归因的潜力。我们期望DePass能成为可解释性领域更广泛应用的基石性工具。