세그먼트화된 순환 트랜스포머: 효율적인 시퀀스-투-시퀀스 모델

Transformers는 언어 및 비전을 포함한 다양한 분야에서 우수한 성능을 보여왔다. 그러나 시퀀스 길이가 증가함에 따라 계산 비용이 제곱적으로 증가하므로, 자원이 제한된 환경에서는 사용이 어렵다는 문제가 있다. 이를 해결하기 위해 본 연구에서는 전체 시퀀스를 여러 세그먼트로 나누고, 각 세그먼트에 대해 주의(attention)를 적용하는 방식을 제안한다. 우리는 세그먼트화된(지역적) 주의와 순환 주의를 결합한 세그먼트 순환 트랜스포머(SRformer)를 제안한다. 주의 창 크기를 축소함으로써 발생하는 성능 저하를 순환 주의를 통해 세그먼트 간 정보를 집계함으로써 보완한다. SRformer는 순환 누적-화재(Recurrent Accumulate-and-Fire, RAF) 뉴런이 내재한 기억 기능을 활용하여 키(key)와 값(value)의 누적 곱을 갱신한다. 세그먼트 주의와 경량화된 RAF 뉴런은 제안된 트랜스포머의 효율성을 보장한다. 이러한 접근은 낮은 계산 및 메모리 비용으로 시계열 처리 능력을 갖춘 모델을 구현할 수 있게 한다. 본 방법은 T5 및 BART 트랜스포머에 적용되었으며, CNN-DailyMail, XSUM, ArXiv, MediaSUM 등 요약 데이터셋에서 검증되었다. 특히 다양한 크기의 세그먼트 입력을 사용한 결과, 제안 모델은 세그먼트화된 트랜스포머보다 ROUGE1 점수에서 6~22% 높은 성능을 달성했으며, 다른 순환 트랜스포머 기법들보다도 우수한 성능을 보였다. 또한, 전체 주의(full attention) 대비 교차 주의의 계산 복잡도를 약 40% 감소시켰다.