주의력의 가장 짧은 장대를 강화하다: 효과적인 도구 사용을 위한 대규모 언어 모델의 맥락 인식 향상

본 논문에서는 대규모 언어 모델(Large Language Models, LLMs)의 주의 분배(attention allocation) 내부에 존재하는 고유한 파형 패턴이, 도구 사용과 같은 높은 수준의 맥락 인식이 요구되는 작업에서 모델의 성능에 상당한 영향을 미친다는 점을 입증한다. 구체적으로, 맥락 내에서 핵심적인 정보가 주의 파형의 골짜기 영역(trough zone)에 위치할 경우, 모델이 이를 간과할 가능성이 있으며, 이로 인해 성능 저하가 발생할 수 있다. 이 문제를 해결하기 위해 우리는 새로운 추론 방법인 Attention Buckets를 제안한다. 이 방법은 LLM이 입력을 병렬로 여러 개의 프로세스를 통해 처리할 수 있도록 하며, 각 프로세스는 회전적 위치 임베딩(rotary position embedding)에 대해 서로 다른 기본 각도(base angle)를 사용함으로써 고유한 주의 파형을 생성한다. 한 프로세스의 주의 골짜기를 다른 프로세스의 주의 정점(peak)으로 보완함으로써, 본 방법은 LLM이 다양한 맥락적 위치에 대해 더 높은 인식 능력을 갖도록 한다. 이로 인해 중요한 정보를 놓치는 위험을 줄일 수 있다. 가장 큰 도구 사용 기준(benchmark)에서, 본 방법을 적용한 7B 규모 모델은 GPT-4 수준의 최신 기술(SOTA) 성능을 달성하였다. 기타 다양한 벤치마크 및 RAG(Retrieval-Augmented Generation) 작업에서도 맥락 정보에 대한 심층적 이해가 요구되는 상황에서 Attention Buckets는 뚜렷한 성능 향상을 보였다.