16일 전

LLM의 훈련 없이 길이 외삽을 수행하는 방법: 탐욕적 어텐션 로짓 보간(Greedy Attention Logit Interpolation, GALI)

Li, Yan, Zhang, Tianyi, Li, Zechuan, Han, Soyeon Caren
LLM의 훈련 없이 길이 외삽을 수행하는 방법: 탐욕적 어텐션 로짓 보간(Greedy Attention Logit Interpolation, GALI)
초록

기반 기술 기반의 대규모 언어 모델(LLM)은 훈련 시 사용된 컨텍스트 창을 초과하는 입력 처리에 어려움을 겪는다. 이는 주로 위치 정보의 분포 외부(out-of-distribution, O.O.D.) 문제로 인해 어텐션 메커니즘이 방해받기 때문이다. 기존의 해결 방안으로는 파인튜닝 및 훈련 없이 구현 가능한 방법들이 존재하지만, 효율성 부족, 중복 보간, 로짓 이상치, 국소적 위치 정보 손실 등의 문제를 겪고 있다. 본 연구에서는 훈련 없이 구현 가능한 새로운 방법인 탐욕적 어텐션 로짓 보간(Greedy Attention Logit Interpolation, GALI)을 제안한다. GALI는 사전 훈련된 위치 간격을 탐욕적으로 재사용하고, 어텐션 로짓을 보간함으로써 이상치를 제거함으로써 길이 외삽성(length extrapolation)을 향상시킨다. GALI는 입력 길이에 따라 특별한 튜닝 없이도 다양한 긴 컨텍스트 작업에서 안정적이고 우수한 성능을 달성한다. 또한 분석을 통해 LLM이 위치 간격을 균일하게 해석하지 않으며, 보간 범위를 좁은 구간으로 제한할 경우 짧은 컨텍스트 작업에서도 성능 향상이 가능함을 밝혀냈다. GALI는 LLM이 긴 텍스트를 더욱 견고하고 일반화 가능한 방식으로 처리할 수 있도록 하는 중요한 발걸음이다. 본 연구에서 제안한 GALI의 구현 코드와 논문 내 실험 자료는 https://github.com/adlnlp/Gali 에 공개되어 있다.

LLM의 훈련 없이 길이 외삽을 수행하는 방법: 탐욕적 어텐션 로짓 보간(Greedy Attention Logit Interpolation, GALI) | 최신 연구 논문 | HyperAI초신경