Command Palette
Search for a command to run...
Jing Xiong Liyang Fan Hui Shen Zunhai Su Min Yang Lingpeng Kong Ngai Wong

초록
Transformer 모델에서 사용되는 회전형 위치 인코딩(Rotary Position Embedding, RoPE)은 길이 외삽성(length extrapolation)을 약화시키는 본질적인 한계를 가지고 있다. 우리는 위치 인코딩을 갖춘 어텐션 맵을 노이즈가 포함된 특징 맵으로 재해석하고, 특징 맵 내 이상 주파수 대역을 탐지하기 위해 자르기 행렬 엔트로피(truncated matrix entropy) 기반의 학습 없이 사용 가능한 새로운 방법인 노이즈 제거 위치 인코딩(Denoising Positional Encoding, DoPE)을 제안한다. 특징 맵의 노이즈 특성을 활용하여, 파라미터가 없는 가우시안 분포를 통해 특징 맵을 재파라미터화함으로써 강건한 외삽 성능을 달성한다. 본 연구는 이론적으로 어텐션 싱크(attention sink) 현상의 근본 원인과 자르기 행렬 엔트로피 간의 관계를 밝혀낸다. Needle-in-a-haystack 및 다중 샘플 컨텍스트 학습(many-shot in-context learning) 등의 실험을 통해, DoPE가 확장된 컨텍스트(최대 64K 토큰)에서 검색 정확도와 추론 안정성을 크게 향상시킴을 입증한다. 결과는 위치 인코딩에 대한 노이즈 제거 전략이 어텐션 싱크를 효과적으로 완화하고 균형 잡힌 어텐션 패턴을 회복함으로써 길이 일반화 성능을 향상시키는 간단하면서도 강력한 해결책임을 보여준다. 본 연구의 프로젝트 페이지는 다음과 같다: Project: https://The-physical-picture-of-LLMs.github.io