클러스터-포머: 장거리 종속성 인코딩을 위한 클러스터링 기반 희소 트랜스포머

Transformer는 딥러닝 분야에서 널리 사용되는 핵심 아키텍처로 자리 잡았다. 이 기술의 성공을 결정지은 주요 요소 중 하나는 입력 토큰 간의 전역적 맥락을 완전히 연결된 방식으로 인코딩할 수 있게 해주는 자기주의(self-attention) 메커니즘이다. 그러나 짧은 시퀀스 모델링에서는 뛰어난 성능을 발휘하지만, 긴 범위의 의존성(long-range dependencies)을 처리할 때는 시퀀스 길이에 따라 복잡도가 제곱적으로 증가하기 때문에 성능이 저하되는 문제가 있다. 이에 따라, 긴 시퀀스를 처리할 경우 Transformer는 일반적으로 슬라이딩 윈도우 방식으로 시퀀스를 조각(Chunk) 단위로 나누어 인코딩한다. 본 논문에서는 이러한 조각화된 시퀀스 간의 어텐션을 수행할 수 있는 새로운 클러스터 기반 희소 Transformer인 Cluster-Former을 제안한다. 제안된 프레임워크는 두 가지 독특한 유형의 Transformer 레이어—슬라이딩 윈도우 레이어(Sliding-Window Layer)와 Cluster-Former 레이어—에 기반하여, 국소적인 시퀀스 정보와 전역적 맥락을 동시에 그리고 반복적으로 인코딩한다. 이 새로운 설계는 국소 윈도우를 넘어서는 정보 통합을 가능하게 하며, 긴 범위의 의존성에 크게 의존하는 질의응답(QA) 작업에 특히 유리하다. 실험 결과, Cluster-Former은 여러 주요 QA 벤치마크에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성함을 확인하였다.