
초록
기반 Transformer 모델을 활용한 사전 학습된 언어 모델(LM)은 자연어 이해 분야에서 널리 사용되고 있지만, 스토리, 과학 논문, 긴 문서와 같은 긴 시퀀스 처리에는 적용할 수 없으며, 그 이유는 이들의 복잡도가 제곱형태로 증가하기 때문이다. 다양한 효율적인 Transformer 변형 모델들이 제안되어 왔지만, 대부분은 고비용의 전용 사전 학습 과정을 필요로 하는 맞춤형 구현에 기반하고 있다. 본 연구에서는 긴 시퀀스 처리를 위한 간단한 접근 방식인 SLED(Sliding-Encoder and Decoder)를 제안한다. SLED는 검증된 단문 기반 사전 학습된 언어 모델을 재사용하고 활용함으로써, 기존의 단문 모델을 효율적으로 확장할 수 있다. 구체적으로 입력을 겹치는 청크(chunk)로 분할하고, 각 청크를 단문 LM 인코더로 인코딩한 후, 사전 학습된 디코더를 사용하여 청크 간 정보를 융합한다(디코더 내 융합, fusion-in-decoder). 제어된 실험을 통해 SLED가 긴 텍스트 이해를 위한 실용적인 전략임을 입증하였으며, 다양한 언어 이해 작업을 아우르는 7개의 데이터셋을 포함한 SCROLLS 벤치마크에서 본 방법을 평가하였다. 그 결과, SLED는 최대 50배 더 큰 특화된 모델들과 경쟁 가능하며, 전용이고 고비용의 사전 학습 과정을 요구하지도 않는다는 점에서 뛰어난 성능을 보였다.