Discord에서 논의하기

5달 전

자연어 처리

Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

초록

Transformer 모델의 행동을 내부 계산에 귀속시키는 것은 기계적 해석성(mechanistic interpretability) 분야에서 핵심적인 도전 과제이다. 본 연구에서는 단일 분해된 순방향 전파(one decomposed forward pass) 기반의 특징 귀속(feature attribution)을 위한 통합적 프레임워크인 DePass를 제안한다. DePass는 숨겨진 상태(hidden states)를 사용자 정의된 가법 성분(additive components)으로 분해한 후, 어텐션 점수와 MLP의 활성화 값을 고정한 상태에서 이를 전파한다. 이 방법은 보조 학습(auxiliary training) 없이도 충실도가 높고 세밀한 귀속을 가능하게 한다. 우리는 토큰 수준, 모델 구성 요소 수준, 부분공간(subspace) 수준의 다양한 귀속 작업에서 DePass의 성능을 검증하며, 그 효과성과 충실도를 입증하였다. 실험 결과는 DePass가 Transformer 모델의 임의의 구성 요소 간 정보 흐름을 귀속하는 데 잠재력을 지닌다는 점을 시사한다. 우리는 DePass가 해석성 분야에서 보다 광범위한 응용을 위한 기초 도구로 활용되기를 기대한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

자연어 처리

Xiangyu Hong Che Jiang Kai Tian Biqing Qi Youbang Sun Ning Ding Bowen Zhou

초록

Transformer 모델의 행동을 내부 계산에 귀속시키는 것은 기계적 해석성(mechanistic interpretability) 분야에서 핵심적인 도전 과제이다. 본 연구에서는 단일 분해된 순방향 전파(one decomposed forward pass) 기반의 특징 귀속(feature attribution)을 위한 통합적 프레임워크인 DePass를 제안한다. DePass는 숨겨진 상태(hidden states)를 사용자 정의된 가법 성분(additive components)으로 분해한 후, 어텐션 점수와 MLP의 활성화 값을 고정한 상태에서 이를 전파한다. 이 방법은 보조 학습(auxiliary training) 없이도 충실도가 높고 세밀한 귀속을 가능하게 한다. 우리는 토큰 수준, 모델 구성 요소 수준, 부분공간(subspace) 수준의 다양한 귀속 작업에서 DePass의 성능을 검증하며, 그 효과성과 충실도를 입증하였다. 실험 결과는 DePass가 Transformer 모델의 임의의 구성 요소 간 정보 흐름을 귀속하는 데 잠재력을 지닌다는 점을 시사한다. 우리는 DePass가 해석성 분야에서 보다 광범위한 응용을 위한 기초 도구로 활용되기를 기대한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

DePass: 간단한 분해된 전방 전파를 통한 통합적 특성 할당 | 문서 | HyperAI초신경