컨텍스트 위치 인코딩(CoPE)
CoPE 또는 Contextual Position Encoding은 본 논문에서 제안한 혁신적인 위치 인코딩 방식입니다. "맥락적 위치 인코딩: 중요한 것을 세는 법 배우기"2024년에 제안되었습니다. 토큰 수를 기반으로 하는 기존 위치 인코딩(PE)의 한계를 돌파하고, 위치 정보가 컨텍스트 조건에 따라 동적으로 변경되도록 하며, 대규모 언어 모델(LLM)에 대해 보다 유연한 시퀀스 데이터 처리 기능을 제공합니다.
대규모 언어 모델(LLM)에서 주의 메커니즘은 순서 요소 간의 상호 작용을 실현할 수 있지만, 그 자체로 순서 정보를 포함하지 않으며 순열 불변성의 특성을 보입니다. 순차적 정보를 도입하려면 일반적으로 위치 인코딩을 도입해야 합니다. 그러나 기존의 위치 인코딩 방법은 토큰 카운트에 기반을 두고 있어, 시퀀스에서 i번째 문장을 직접 찾는 것과 같은 더 높은 수준의 추상화로 일반화하는 모델의 능력이 제한됩니다.
CoPE는 다음과 같은 주요 단계를 통해 핵심 아이디어를 구현합니다.
- 컨텍스트 벡터 결정: CoPE는 컨텍스트 벡터를 사용하여 계산해야 할 토큰을 결정합니다.
- 게이팅 메커니즘 적용: CoPE는 게이트 메커니즘을 통해 위치 측정에 어떤 토큰을 포함할지 결정합니다.
- 상대 위치 계산: 주어진 현재 토큰을 쿼리 벡터로 사용하면 CoPE는 해당 토큰과 시퀀스의 모든 이전 토큰의 키 벡터 사이의 게이트 값을 계산하고 이러한 게이트 값을 집계하여 현재 토큰에 대한 각 토큰의 상대적 위치를 결정합니다.
- 보간 계산 위치 임베딩: 각 위치에 고정된 임베딩 벡터를 할당하는 방법과 달리 CoPE는 보간을 통해 위치 임베딩을 동적으로 계산합니다.
CoPE의 장점은 다차원적 유연성에 있습니다.
- 다중 단위 측정: CoPE를 사용하면 모델은 쿼리와 레이어에 따라 단어, 구, 문장 등 여러 단위로 거리를 측정할 수 있습니다.
- 상황에 따라 동적으로 적응: CoPE는 다양한 상황적 환경에 유연하게 적응할 수 있으며, 상황에 맞는 역동적인 시퀀스 데이터 처리 방법을 제공합니다.
- 성능 개선: 계산 작업, 선택적 복사 작업, 언어 모델링과 같은 작업에서 CoPE는 기존 토큰 기반 위치 인코딩 방식보다 뛰어난 성능을 보여줍니다. 특히 분포 범위를 벗어난 데이터를 처리하는 경우와 높은 일반화 기능이 필요한 작업에서 그 성능이 뛰어납니다.
Multi-head Attention에서 CoPE를 적용하는 것도 마찬가지로 직관적입니다.
- 독립적인 실행: 각 어텐션 헤드는 각자의 CoPE를 독립적으로 수행하여 다양한 위치 측정을 달성할 수 있습니다.
- 다중 수준의 추상화: 이 모델은 다양한 수준의 추상화에 동시에 집중할 수 있습니다. 예를 들어, 한 헤드는 토큰을 세는 동안 다른 헤드는 문장을 세는 것이 가능합니다.
요약하자면, CoPE는 위치 인코딩과 맥락 정보를 결합하여 대규모 언어 모델에 대해 보다 효율적이고 유연한 위치 인코딩 전략을 제공하며, 이를 통해 모델이 시퀀스 데이터의 구조적 및 의미적 정보를 보다 심층적으로 이해하고 처리하는 데 도움이 됩니다.