
초록
기존의 Transformer 기반 모델은 콘텐츠 의미를 포착하는 피드포워드 블록과 상대적으로 계산 비용이 높은 자기주의(self-attention) 블록이 번갈아 배치된 구조를 가지고 있다. 본 논문에서는 이러한 블록 간의 균형과 순서를 탐색함으로써 기존 Transformer 아키텍처를 개선하고, PAR Transformer를 제안한다. 이 모델은 자기주의 블록의 약 63%를 피드포워드 블록으로 대체함으로써 Transformer-XL 대비 약 35%의 계산 시간을 절감하면서도, WikiText-103 언어 모델링 벤치마크에서 난이도(perplexity)를 유지한다. 또한 본 연구 결과는 text8 및 enwiki8 데이터셋, 그리고 BERT 모델을 대상으로도 추가로 검증되었으며, 성능의 타당성이 확인되었다.