Command Palette
Search for a command to run...
DePass: 간단한 분해된 전방 전파를 통한 통합적 특성 할당
DePass: 간단한 분해된 전방 전파를 통한 통합적 특성 할당
Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou
초록
Transformer 모델의 행동을 내부 계산에 귀속시키는 것은 기계적 해석성(mechanistic interpretability) 분야에서 핵심적인 도전 과제이다. 본 연구에서는 단일 분해된 순방향 전파(one decomposed forward pass) 기반의 특징 귀속(feature attribution)을 위한 통합적 프레임워크인 DePass를 제안한다. DePass는 숨겨진 상태(hidden states)를 사용자 정의된 가법 성분(additive components)으로 분해한 후, 어텐션 점수와 MLP의 활성화 값을 고정한 상태에서 이를 전파한다. 이 방법은 보조 학습(auxiliary training) 없이도 충실도가 높고 세밀한 귀속을 가능하게 한다. 우리는 토큰 수준, 모델 구성 요소 수준, 부분공간(subspace) 수준의 다양한 귀속 작업에서 DePass의 성능을 검증하며, 그 효과성과 충실도를 입증하였다. 실험 결과는 DePass가 Transformer 모델의 임의의 구성 요소 간 정보 흐름을 귀속하는 데 잠재력을 지닌다는 점을 시사한다. 우리는 DePass가 해석성 분야에서 보다 광범위한 응용을 위한 기초 도구로 활용되기를 기대한다.